24h

Um novo estudo internacional revela que cerca de metade das respostas dadas por sistemas de Inteligência Artificial (IA) a questões de saúde são incorretas ou problemáticas, apesar de serem apresentadas com aparente rigor científico.

A confiança na IA para esclarecer dúvidas de saúde pode estar a induzir em erro muitos utilizadores. Um estudo publicado na BMJ Open concluiu que apenas 30% das respostas fornecidas por chatbots são aceitáveis, enquanto 70% apresentam falhas, sendo 20% consideradas altamente problemáticas.

A investigação analisou cinco dos principais sistemas disponíveis no mercado, incluindo o ChatGPT, o Gemini, o Grok, o Meta AI e o DeepSeek, através de 50 perguntas médicas sobre temas como cancro, vacinas, nutrição, células estaminais e desempenho físico. No total, foram avaliadas 250 respostas por especialistas independentes. Os resultados mostram que, apesar de respostas bem estruturadas e convincentes, a fiabilidade está longe de ser garantida. O Grok apresenta a maior taxa de respostas problemáticas, com 58%, seguido do ChatGPT com 52% e do Meta AI com 50%. Ainda assim, o desempenho global revelou-se semelhante entre os diferentes sistemas.

Outro dado preocupante está na forma como estas ferramentas apresentam fontes. Nenhum dos modelos conseguiu gerar referências totalmente corretas, sendo frequentes erros como artigos inexistentes, ligações inválidas ou dados bibliográficos incorretos, o que contribui para uma falsa percepção de credibilidade.

O tipo de pergunta influencia diretamente a qualidade das respostas. Questões abertas, comuns na utilização quotidiana, como pedidos de recomendação de suplementos, registaram uma taxa de respostas altamente problemáticas de 32%. Já as perguntas fechadas apresentaram uma taxa de erro bastante inferior, fixando-se nos 7%.

Segundo os investigadores, esta fragilidade está relacionada com o funcionamento dos próprios sistemas, que não possuem conhecimento clínico. Em vez disso, operam com base na previsão estatística de palavras a partir de grandes volumes de dados que incluem tanto literatura científica como conteúdos não verificados da internet.

As conclusões estão alinhadas com outros estudos recentes publicados na Nature Medicine e na JAMA Network Open, que apontam para dificuldades dos chatbots em sugerir diagnósticos corretos e para a possibilidade de amplificação de informação médica incorreta.

Apesar das limitações, os especialistas reconhecem utilidade a estas ferramentas na simplificação de informação médica ou na preparação de consultas. Ainda assim, alertam para os riscos de utilização como fonte autónoma de aconselhamento clínico.