Um estudo publicado na revista Science, conduzido por investigadores da Harvard Medical School e do Beth Israel Deaconess Medical Center, analisou o desempenho de modelos de linguagem em contexto clínico, incluindo casos reais de urgência hospitalar.
Os resultados indicam que um dos modelos testados apresentou «níveis de precisão comparáveis — e, em alguns momentos, superiores — aos de médicos humanos». Num dos ensaios, centrado em 76 pacientes admitidos num serviço de urgência, os diagnósticos gerados pelos modelos foram comparados com os de dois médicos de medicina interna.
A avaliação, feita por outros clínicos sem conhecimento da origem das respostas, mostrou que o modelo ‘o1’ «apresentou diagnósticos exactos ou muito próximos em 67% dos casos de triagem inicial, face a valores entre 50% e 55% registados pelos médicos».
Os investigadores sublinham que os modelos receberam «exactamente a mesma informação disponível nos registos clínicos no momento da avaliação, sem qualquer pré-processamento». A vantagem do sistema de IA foi «mais evidente na fase inicial de triagem», onde existe «menos informação disponível e maior urgência na tomada de decisão».
Apesar dos resultados, o estudo não conclui que a inteligência artificial «esteja pronta para substituir decisões médicas em contexto real». Os autores defendem a necessidade de haver «mais ensaios prospectivos em ambiente clínico para avaliar a utilização destas tecnologias em cuidados de saúde».