A Cloudflare está a ensaiar uma nova forma de impedir que os crawlers de inteligência artificial recolham conteúdos dos sites sem permissão. A empresa de CDN/segurança online anunciou que, por omissão, está a bloquear o acesso aos conteúdos sem permissão ou compensação. Os editores podem permitir o acesso aos crawlers, mas as empresas de Inteligência Artificial responsáveis pela operação dos bots terão de pagar.
A partir de hoje, quando um novo site começa a usar o serviço da Cloudflare, será perguntado ao responsável se deseja permitir que os crawlers de inteligência artificial recolham dados que estão no site. Os proprietários dos sites podem não só escolher se querem permitir o acesso e a que conteúdo, mas também decidir como as empresas de inteligência artificial podem utilizá-lo.
Além disso, as empresas de Inteligência Artificial podem declarar claramente se os crawlers estão a ser usados para treino, inferência ou pesquisa, ajudando os proprietários a decidir quais crawlers permitir.
A Cloudflare lançou uma ferramenta gratuita para bloquear bots que recolhem dados para serviços de Inteligência Artificial em 2024, mas esta alteração permite que os editores os bloqueiem por omissão, e sem alterar quaisquer configurações. A Condé Nast, TIME e The Associated Press são apenas alguns dos editores que se inscreveram para bloquear os crawlers. A Cloudflare afirma que mais de 1 milhão de clientes escolheram esta opção.
A Cloudflare acrescenta que um pequeno número de editores e criadores de conteúdo está a participar numa versão beta privada da sua funcionalidade de pagamento por rastreio. Isto permitirá que aqueles que permitam que os bots acedam aos seus conteúdos definam um preço pelo privilégio.
“Cada vez que um crawler de inteligência artificial solicita conteúdo, ele apresenta uma intenção de pagamento via cabeçalhos de requisição para acesso bem-sucedido (código de resposta HTTP 200), ou recebe uma resposta 402 Payment Required com a tabela de preços”, explicou a Cloudflare.
Qualquer pessoa interessada em fazer parte da beta pode inscrever-se aqui.
Cerca de 16% do tráfego global da internet passa directamente pela CDN da Cloudflare, de acordo com um relatório de 2023, pelo que a medida poderá ter um enorme impacto nas empresas de IA.
“O conteúdo original é o que faz da Internet uma das maiores invenções do século passado, e é essencial que os criadores continuem a fazê-lo”, disse Matthew Prince, CEO da Cloudflare.
“Os crawlers de inteligência artificial têm recolhido conteúdos sem limites. O nosso objetivo é devolver o poder aos criadores, ao mesmo tempo que ajudamos as empresas de IA a inovar. Trata-se de salvaguardar o futuro de uma Internet livre e vibrante com um novo modelo que funcione para todos.”
Para que o sistema de pagamento por rastreio funcione correctamente, as empresas de Inteligência Artificial também devem aderir ao programa. A Cloudflare afirma que já fez parcerias com várias empresas de IA dispostas a participar no que deverá ser um arranjo mutuamente benéfico – assumindo que concordem em pagar os preços definidos pelos editores.
A notícia surge apenas algumas semanas depois de Prince ter reiterado o seu aviso anterior de que os crawlers e resumos por Inteligência Artificial estavam a destruir o modelo de negócio da Internet. O bloqueio por omissão e o pagamento por rastreio fazem parte do plano da empresa para combater a ameaça de uma internet de “zero cliques”, um termo que descreve quando os utilizadores já não precisam de clicar em ligações para encontrar o conteúdo que desejam.
No passado, os site web geralmente viam um visitante humano para cada seis vezes que o Google rastreava as suas páginas – uma proporção relativamente equilibrada que muitas vezes se traduzia em visualizações de anúncios. Em comparação, o crawler da OpenAI tinha uma taxa de envolvimento muito menor, de cerca de um visitante por 250 rastreamentos, enquanto a proporção da Anthropic era ainda mais acentuada, em aproximadamente 6.000 para um. De acordo com Prince, essas lacunas aumentaram: o Google agora tem uma média de cerca de 18 rastreamentos por visitante, a taxa da OpenAI caiu para 1.500 para um, e a da Anthropic é estimada nuns impressionantes 60.000 para um.