À medida que a ‘Vista geral de IA’ (VGAI), os resumos apresentados no topo das páginas com os resultados de uma busca da Google, retira o tráfego aos sites que aparecem nessas páginas e o conteúdo gerado por inteligência artificial (IA) inunda a web, há muito que se previu que estas funcionalidades acabariam por ficar sem dados produzidos por humanos e começariam a citar informação criada inteiramente por IA. Com efeito, é que está a começar a acontecer: um estudo descobriu que cerca de 10% das fontes citadas na ‘Vista geral de IA’ são elas próprias geradas por IA.
Uma das muitas preocupações em relação ao “lixo” de IA que está a aparecer online é que outros serviços de IA, como as VGAI, comecem a citá-lo. Dada a propensão destas tecnologias para alucinações (inventar coisas) e as ramificações de ter IA a aprenderem com IA, é uma perspectiva preocupante.
Um estudo recente feito pela Originality.ai, empresa que desenvolve software para detectar conteúdos criados por IA, mostra que a IA está a ser cada vez mais usada nos resumos apresentados nas páginas do Google.
A empresa amostrou aleatoriamente 29.000 pesquisas da Google do tipo Your Money or Your Life (YMYL) – tópicos que podem ter um impacto significativo na saúde, segurança, estabilidade financeira ou felicidade de um utilizador. Em seguida, analisou as VGAI que apareceram no topo da página com os resultados das pesquisas, os links que elas citaram e os primeiros 100 resultados orgânicos para cada pesquisa.
Usando o modelo AI Detection Lite 1.0.1, a Originality.ai concluiu que 10,4% das fontes das VGAI eram provavelmente geradas por uma IA.
As preocupações sobre os ciclos de feedback da IA (modelos de IA a aprenderem com outros modelos de IA) são antigas. Em 2023, uma equipa de investigadores do Reino Unido e do Canadá publicou um trabalho (com o título gerado por IA The Curse of Recursion) sobre este fenómeno e sobre como ele causa “defeitos irreversíveis”. Cunhou o termo “Colapso do Modelo” (Model Collapse).
O novo estudo assinala que as descobertas mostram um risco a longo prazo de colapso do modelo. Acrescenta que as próprias vistas gerais de IA do Google não fazem parte dos dados de treino, mas ao fazerem emergir fontes geradas por IA, aumentam a visibilidade e a credibilidade dessas fontes. Isto aumenta a probabilidade de esse material ser utilizado em futuros conjuntos de treino.
Como era de esperar, a Google rejeitou as descobertas do estudo, argumentando que a precisão do detector de IA da Originality.ai é falível.
“Este é um estudo falível que se baseia em dados parciais e tecnologia não confiável”, disse um porta-voz ao site The Register. “Os detectores de IA não provaram a sua eficácia na detecção de conteúdos gerados por IA – de facto, muitos demonstraram ser propensos a erros. Tal como acontece nos resultados das pesquisas no Google em geral, os links que estão incluídos nas vistas gerais de IA são dinâmicos e mudam com base na informação que é mais relevante, útil e oportuna para uma dada pesquisa.”
Embora o software de detecção de IA não seja, é certo, perfeito, testes mostraram que a ferramenta da Originality.ai recebeu boas notas por precisão.
O resto do estudo da Originality.ai mostrou que 74,4% das citações de IA eram escritas por humanos. 15.2% eram “inclassificáveis”, principalmente porque tinham muito pouco texto, links quebrados ou eram páginas de vídeo ou ficheiros PDF.
Descobriu-se também que das citações que funcionaram nas VGAI, 52% não estavam entre as 100 páginas principais que a Google mostrou nos seus resultados de pesquisa orgânica para o mesmo termo. E 12,8% destas – mais do que o número global – foram sinalizadas como tendo sido geradas por IA.