A inteligência artificial (IA) já consegue detectar doenças em imagens médicas com níveis semelhantes de precisão ao de profissionais de saúde, de acordo com uma pesquisa liderada pela Universidade de Birmingham e pela University Hospitals Birmingham NHS Foundation Trust (Reino Unido). A pesquisa, a primeira revisão e meta-análise sistemática que sintetiza todas as evidências disponíveis da literatura científica, foi divulgada em 24 de setembro na publicação “The Lancet Digital Health”.

Mas os pesquisadores ressalvaram que o verdadeiro poder de diagnóstico da técnica de IA conhecida como aprendizado profundo – o uso de algoritmos, big data e poder de computação para emular o aprendizado e a inteligência humanos – permanece incerto. A explicação para isso é a falta de estudos que comparem diretamente o desempenho dos seres humanos e o de máquinas, ou que validem o desempenho da IA ​​em ambientes clínicos reais.

“Analisamos mais de 20.500 artigos, mas menos de 1% deles era suficientemente robusto em sua elaboração e exposição, a ponto de os revisores independentes terem alta confiança em suas alegações”, afirmou o coautor Alastair Denniston, professor honorário da Universidade de Birmingham e da University Hospitals Birmingham NHS Foundation Trust.

LEIA TAMBÉM: Algoritmo de aprendizado de máquina faz descobertas científicas

“Além disso, apenas 25 estudos validaram os modelos de IA externamente usando imagens médicas de uma população diferente, e apenas 14 estudos compararam o desempenho de IA e profissionais de saúde usando a mesma amostra de teste”, prosseguiu Denniston. “Nos poucos estudos de alta qualidade, descobrimos que o aprendizado profundo pode realmente detectar doenças que variam de câncer a doenças oculares com a mesma precisão que os profissionais de saúde. Mas é importante observar que a IA não superou substancialmente o diagnóstico humano.”

Potencial enorme

Com o aprendizado profundo, os computadores podem examinar milhares de imagens médicas para identificar padrões de doenças. Isso oferece um enorme potencial para melhorar a precisão e a velocidade do diagnóstico.

Relatórios de modelos de aprendizagem profunda que superam os humanos em testes de diagnóstico geraram muita emoção e debate. Mais de 30 algoritmos de IA para cuidados de saúde já foram aprovados pela Food and Drug Administration (FDA), a agência governamental americana que regula alimentos e remédios.

Apesar do forte interesse público e das forças de mercado que impulsionam o rápido desenvolvimento dessas tecnologias, surgiram preocupações sobre se os desenhos de estudos são tendenciosos a favor do aprendizado de máquina e sobre o grau em que os resultados são aplicáveis ​​à prática clínica do mundo real.

A análise dos dados de 14 estudos que compararam o desempenho do aprendizado profundo com seres humanos na mesma amostra constatou que, na melhor das hipóteses, algoritmos de aprendizado profundo podem detectar corretamente a doença em 87% dos casos. Os profissionais da saúde conseguem 86%.

A capacidade de excluir com precisão pacientes que não têm doença também foi semelhante para algoritmos de aprendizado profundo (especificidade de 93%) em comparação com profissionais de saúde (91%).

Os autores do estudo observaram várias limitações na metodologia e nos relatórios dos estudos de diagnóstico de IA incluídos na análise. A aprendizagem profunda foi frequentemente avaliada isoladamente de uma maneira que não reflete a prática clínica.

Necessidade de estudos

Por exemplo, apenas quatro estudos forneceram aos profissionais de saúde informações clínicas adicionais que eles usariam normalmente para fazer um diagnóstico na prática clínica. Além disso, poucos estudos prospectivos foram realizados em ambientes clínicos reais, e os autores afirmam que, para determinar a precisão do diagnóstico, são necessárias comparações de alta qualidade em pacientes, não apenas conjuntos de dados. Relatórios ruins também eram comuns – a maioria dos estudos não incluía alguns dados relacionados ao caso, o que limita as conclusões a serem tiradas.

“Existe uma tensão inerente entre o desejo de usar novos diagnósticos potencialmente salvadores de vidas e o imperativo de desenvolver evidências de alta qualidade de uma maneira que possa beneficiar pacientes e sistemas de saúde na prática clínica”, observou o coautor Xiaoxuan Liu, da Universidade de Birmingham.

“As evidências de como os algoritmos de IA mudarão os resultados dos pacientes precisam vir de comparações com testes de diagnóstico alternativos em ensaios clínicos randomizados”, observou Livia Faes, do Hospital Cantonal de Lucerna (Suíça) e do Moorfields Eye Hospital, em Londres, primeira autora do estudo. “Até o momento, praticamente não existem ensaios em que decisões diagnósticas tomadas por um algoritmo de IA são tomadas para ver o que acontece com resultados que realmente importam para os pacientes, como tratamento oportuno, tempo para alta do hospital ou até taxas de sobrevivência.”