PCGuia PCGuia
  • [email protected]
  • Dicas
    • Apps
    • Descomplicómetro
    • Download da semana
    • Guia completo
    • Inteligência Artificial
    • Linux
    • Modding
    • Photoshop
    • Teste de velocidade da Internet
    • Open Source
  • MacGuia
  • Jogos
  • Notícias
    • Ambiente
    • Apps
    • Ciência
    • Curiosidades
    • Hardware
    • Inteligência Artificial
    • Internet
    • Mercados
    • Mobilidade
    • Multimédia
    • Robots
    • Segurança
    • Software
    • Startup
    • Especiais
      • Especial PCGuia
      • História
  • Reviews
    • Armazenamento
    • Áudio
    • Componentes
    • Desktops
    • Gadgets
    • Imagem
    • Mobilidade
    • Periféricos
    • Robótica
  • Opinião
    • Conceito Humanoide
    • Há Uma App Para Tudo
    • O Que Vem à Rede
    • Praia das Maçãs
    • Quinta Coluna
  • Precisa de ajuda?
  • Contactos
  • Como testamos os produtos
  • Termos de utilização
  • Política de privacidade e cookies
  • Estatuto Editorial
  • Declaração de Privacidade
  • Política de Cookies
© 2023 - Fidemo Sociedade de Media
A ler: Cloudflare actualiza os ficheiros “robots.txt” para pôr na ordem os bots que recolhem informações para treino de IA
Font ResizerAa
PCGuia PCGuia
Font ResizerAa
Procurar
  • Dicas
  • Jogos
  • Linux
  • Notícias
  • Opinião
  • Reviews
  • Cookie Policy
© 2023 Fidemo Sociedade de Média
PCGuia > Notícias > Inteligência Artificial > Cloudflare actualiza os ficheiros “robots.txt” para pôr na ordem os bots que recolhem informações para treino de IA
Inteligência ArtificialInternetNotícias

Cloudflare actualiza os ficheiros “robots.txt” para pôr na ordem os bots que recolhem informações para treino de IA

Um padrão web com décadas recebeu a maior actualização até hoje, mas será que as empresas de IA vão acatar as novas regras?

Pedro Tróia
Publicado em 3 de Outubro, 2025
Tempo de leitura: 6 min
Cloudflare

O Robots.txt é um pequeno ficheiro de texto que se encontra em todos os sites web. Serve para dizer aos motores de busca e aos bots o que é que estão autorizados a ver e o que não estão, funcionando como um “porteiro digital”. Nos primeiros tempos da Internet, este sistema funcionava bem. Motores de busca como o Google e o Bing seguiam as regras, e a maioria dos donos dos sites estava contente com o equilíbrio.

- Publicidade -

Mas a ascensão da IA mudou o panorama. Os bots de IA não estão a indexar sites no sentido tradicional. Em vez disso, copiam conteúdo para treinar chatbots ou gerar respostas. Muitas empresas responsáveis por serviços de IA ignoram o robots.txt por completo, ou disfarçam os seus crawlers para contornar as restrições.

A Cloudflare protege cerca de 20% da internet, o que lhe dá uma perspectiva única de como é que estes bots de IA se comportam em grande números. É por isso que lançou a Política de Sinais de Conteúdo (Content Signals Policy), uma nova maneira de os editores dizerem se o seu conteúdo pode ser usado para treino de IA — ou não.

O que faz a política de sinais de conteúdo da Cloudflare

Esta nova política é construída sobre o robots.txt ao adicionar instruções extra para os bots seguirem. Em vez de apenas dizer que páginas podem ser rastreadas (crawled), permite aos editores definirem regras para como o seu conteúdo pode ser usado após ser acedido.

Existem três novos “sinais” para escolher:

- Publicidade -
  • search – permite que o conteúdo seja usado para construir um índice de busca e mostrar links ou snippets nos resultados.
  • ai-input – abrange a utilização directa de conteúdo em respostas de IA, como quando um chatbot puxa de uma página para gerar uma resposta.
  • ai-train – controla se o conteúdo pode ser usado para treinar ou afinar modelos de IA.

Estes sinais usam valores simples de sim ou não. Por exemplo, um site pode permitir que o seu conteúdo apareça nos resultados de busca, mas bloqueá-lo do treino de IA.

A Cloudflare já implementou isto em mais de 3.8 milhões de domínios. Por defeito, o search está definido como “yes” (sim), o ai-train está definido como “no” (não), e o ai-input é deixado neutro até que o dono do site decida de outra forma.

Embora esta actualização seja bem-vinda, alguns bots vão ignorar os novos sinais. Os donos dos sites vão ter dos combinar com protecção extra, tal como firewalls para aplicações web, que filtram e monitorizam o tráfego entre um site e a Internet. A gestão de bots também é importante. Esta usa machine learning para detectar e bloquear tráfego automatizado malicioso, enquanto deixa passar os utilizadores reais.

Mesmo que algumas empresas de IA escolham ignorar estas regras, a política fortalece a posição legal dos editores. A Cloudflare enquadra os sinais de conteúdo como uma “reserva de direitos”, que poderá ser usada em futuros processos contra empresas de IA.

Se os responsáveis pelas IA decidirem respeitar os sinais, isso poderá estabelecer um novo padrão para a web. Caso contrário, é provável que haja um bloqueio mais estrito e acções legais mais agressivas.

Outro ponto de atrito é como a Google lida com os seus crawlers. O Googlebot é usado tanto indexar sites para dar resultados de busca como para gerar a ‘Vista geral de IA’, o que significa que os editores não podem optar por não ter as funcionalidades de IA sem também perder visibilidade na busca. Isto cria uma troca injusta. Ou permite à Google usar conteúdo para IA, ou arrisca-se a perder tráfego. Os editores mais pequenos são os mais atingidos, porque dependem da busca do Google para chegar aos seus públicos.

É bom ver a Cloudflare a tomar medidas para proteger os domínios da onda de bots de IA que estão actualmente a fazer scraping (recolha de informação) de tudo o que está publicamente disponível online. Até o ChatGPT parece treinar-se com o que consegue. O novo modelo de vídeo Sora 2, consegue recriar missões inteiras do Cyberpunk 2077, e é difícil de acreditar que tenha sido dada permissão para usar esse conteúdo.

A Cloudflare também está a testar uma funcionalidade de “pagamento por rastreio” (pay-per-crawl). Esta funcionalidade pode permitir aos donos de domínios cobrar aos crawlers de IA cada vez que acedem a um site. Se um crawler não fornecer detalhes de pagamento, será confrontado com um erro 402 Payment Required.

- Publicidade -
Etiquetas:CloudFlare
Sem comentários

Deixe um comentário Cancelar resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

Ad image
Apoio
Ad image Ad image

Também lhe pode interessar

Comet Perplexity
Inteligência ArtificialNotícias

Browser Comet AI da Perplexity disponível para download gratuito

Tempo de leitura: 3 min
Produção de chips Intel
HardwareNotícias

AMD em conversações com a Intel para o fabrico de chips

Tempo de leitura: 4 min
FormaçãoNotícias

Escola de Startups para Estudantes tem inscrições abertas até ao dia 16 de Novembro

Tempo de leitura: 1 min
Sora_2
Inteligência ArtificialNotícias

OpenAi lança o novo gerador de vídeo Sora 2 para competir com o Veo 3 da Google

Tempo de leitura: 1 min
© 2023 Fidemo Sociedade de Media
Gerir a sua privacidade

Para fornecer as melhores experiências, nós e os nossos parceiros usamos tecnologias como cookies para armazenar e/ou aceder a informações do dispositivo. O consentimento para essas tecnologias permitirá que nós e os nossos parceiros processemos dados pessoais, como comportamento de navegação ou IDs exclusivos neste site e mostrar anúncios (não) personalizados. Não consentir ou retirar o consentimento pode afetar adversamente certos recursos e funções.

Clique abaixo para consentir com o acima ou fazer escolhas granulares. As suas escolhas serão aplicadas apenas a este site. Pode alterar suas configurações a qualquer momento, incluindo a retirada de seu consentimento, usando os botões de alternância na Política de Cookies ou clicando no botão de consentimento para gerir na parte inferior do ecrã.

Funcional Sempre ativo
O armazenamento ou acesso técnico é estritamente necessário para o fim legítimo de permitir a utilização de um determinado serviço expressamente solicitado pelo assinante ou utilizador, ou para o fim exclusivo de efetuar a transmissão de uma comunicação numa rede de comunicações eletrónicas.
Preferências
O armazenamento ou acesso técnico é necessário para o propósito legítimo de armazenamento de preferências não solicitadas pelo assinante ou utilizador.
Estatísticas
O armazenamento técnico ou acesso que é usado exclusivamente para fins estatísticos. O armazenamento técnico ou acesso que é usado exclusivamente para fins estatísticos anónimos. Sem uma intimação, conformidade voluntária por parte do seu Fornecedor de Serviços de Internet ou registos adicionais de terceiros, as informações armazenadas ou recuperadas apenas para esse fim geralmente não podem ser usadas para identificá-lo.
Marketing
O armazenamento ou acesso técnico é necessário para criar perfis de utilizador para enviar publicidade ou para rastrear o utilizador num site ou em vários sites para fins de marketing semelhantes.
Estatísticas

Marketing

Recursos
Sempre ativo

Sempre ativo
Gerir opções Gerir serviços Gerir {vendor_count} fornecedores Leia mais sobre esses propósitos
Gerir opções
{title} {title} {title}