O Robots.txt é um pequeno ficheiro de texto que se encontra em todos os sites web. Serve para dizer aos motores de busca e aos bots o que é que estão autorizados a ver e o que não estão, funcionando como um “porteiro digital”. Nos primeiros tempos da Internet, este sistema funcionava bem. Motores de busca como o Google e o Bing seguiam as regras, e a maioria dos donos dos sites estava contente com o equilíbrio.
Mas a ascensão da IA mudou o panorama. Os bots de IA não estão a indexar sites no sentido tradicional. Em vez disso, copiam conteúdo para treinar chatbots ou gerar respostas. Muitas empresas responsáveis por serviços de IA ignoram o robots.txt por completo, ou disfarçam os seus crawlers para contornar as restrições.
A Cloudflare protege cerca de 20% da internet, o que lhe dá uma perspectiva única de como é que estes bots de IA se comportam em grande números. É por isso que lançou a Política de Sinais de Conteúdo (Content Signals Policy), uma nova maneira de os editores dizerem se o seu conteúdo pode ser usado para treino de IA — ou não.
O que faz a política de sinais de conteúdo da Cloudflare
Esta nova política é construída sobre o robots.txt ao adicionar instruções extra para os bots seguirem. Em vez de apenas dizer que páginas podem ser rastreadas (crawled), permite aos editores definirem regras para como o seu conteúdo pode ser usado após ser acedido.
Existem três novos “sinais” para escolher:
- search – permite que o conteúdo seja usado para construir um índice de busca e mostrar links ou snippets nos resultados.
- ai-input – abrange a utilização directa de conteúdo em respostas de IA, como quando um chatbot puxa de uma página para gerar uma resposta.
- ai-train – controla se o conteúdo pode ser usado para treinar ou afinar modelos de IA.
Estes sinais usam valores simples de sim ou não. Por exemplo, um site pode permitir que o seu conteúdo apareça nos resultados de busca, mas bloqueá-lo do treino de IA.
A Cloudflare já implementou isto em mais de 3.8 milhões de domínios. Por defeito, o search está definido como “yes” (sim), o ai-train está definido como “no” (não), e o ai-input é deixado neutro até que o dono do site decida de outra forma.
Embora esta actualização seja bem-vinda, alguns bots vão ignorar os novos sinais. Os donos dos sites vão ter dos combinar com protecção extra, tal como firewalls para aplicações web, que filtram e monitorizam o tráfego entre um site e a Internet. A gestão de bots também é importante. Esta usa machine learning para detectar e bloquear tráfego automatizado malicioso, enquanto deixa passar os utilizadores reais.
Mesmo que algumas empresas de IA escolham ignorar estas regras, a política fortalece a posição legal dos editores. A Cloudflare enquadra os sinais de conteúdo como uma “reserva de direitos”, que poderá ser usada em futuros processos contra empresas de IA.
Se os responsáveis pelas IA decidirem respeitar os sinais, isso poderá estabelecer um novo padrão para a web. Caso contrário, é provável que haja um bloqueio mais estrito e acções legais mais agressivas.
Outro ponto de atrito é como a Google lida com os seus crawlers. O Googlebot é usado tanto indexar sites para dar resultados de busca como para gerar a ‘Vista geral de IA’, o que significa que os editores não podem optar por não ter as funcionalidades de IA sem também perder visibilidade na busca. Isto cria uma troca injusta. Ou permite à Google usar conteúdo para IA, ou arrisca-se a perder tráfego. Os editores mais pequenos são os mais atingidos, porque dependem da busca do Google para chegar aos seus públicos.
É bom ver a Cloudflare a tomar medidas para proteger os domínios da onda de bots de IA que estão actualmente a fazer scraping (recolha de informação) de tudo o que está publicamente disponível online. Até o ChatGPT parece treinar-se com o que consegue. O novo modelo de vídeo Sora 2, consegue recriar missões inteiras do Cyberpunk 2077, e é difícil de acreditar que tenha sido dada permissão para usar esse conteúdo.
A Cloudflare também está a testar uma funcionalidade de “pagamento por rastreio” (pay-per-crawl). Esta funcionalidade pode permitir aos donos de domínios cobrar aos crawlers de IA cada vez que acedem a um site. Se um crawler não fornecer detalhes de pagamento, será confrontado com um erro 402 Payment Required.