A 18 de Novembro de 2025, a Cloudflare, uma das maiores empresas mundiais de fornecimento de serviços de cache, DNS e segurança a sites web e apps, sofreu uma interrupção de serviço significativa. O incidente, que durou várias horas, resultou na inacessibilidade de um grande número de serviços online, que estiveram durante esse tempo a mostrar uma página de erro HTTP 5xx. Contrariamente às suspeitas iniciais de um ataque de negação de serviço (DDoS) em larga escala, a Cloudflare revelou que a falha foi desencadeada por um erro interno, profundamente técnico, relacionado com a gestão de permissões na sua base de dados.
O problema começou a manifestar-se às 11:20 UTC e afectou imediatamente a capacidade da rede da Cloudflare de encaminhar o tráfego central. Durante este período, serviços cruciais como o Core CDN (Rede de Entrega de Conteúdo) e os sistemas de segurança falharam, levando a mostrar as páginas de erro. O impacto estendeu-se a produtos como o Workers KV, que reportou uma elevada taxa de falhas 5xx, e o sistema de autenticação Access, que viu a maioria das tentativas de login falhar. Até o Turnstile, um serviço usado para verificação se os acessos são feitos realmente por humanos, e o painel de controlo da própria Cloudflare foram afectados, tornando a gestão de contas quase impossível.
A Cloudflare confirmou que o incidente não foi causado por actividade maliciosa ou um ciberataque. A raiz do problema residiu numa alteração de permissões num dos seus clusters de bases de dados ClickHouse, implementada às 11:05 UTC. Esta alteração acidentalmente levou a base de dados a gerar múltiplas entradas duplicadas num “ficheiro de características” crucial para o funcionamento do sistema de gestão de bots.
Este ficheiro, que contém as características utilizadas pelo modelo de machine learning para pontuar e classificar o tráfego (se é bot ou humano), duplicou o tamanho inesperadamente. Ao ser propagado rapidamente pelas máquinas que compõem a rede global da Cloudflare, o software que executa o proxy central – responsável por todo o encaminhamento e regras de segurança – deparou-se com um limite de tamanho que excedeu, levando-o a falhar e a devolver o código de erro 5xx.
O aspecto mais confuso do incidente, que inicialmente fez a equipa suspeitar de um ataque, foi o comportamento flutuante da rede. O ficheiro de configuração era gerado a cada cinco minutos, e como a alteração das permissões só estava presente em parte do cluster ClickHouse, a rede entrava em recuperação e voltava a falhar, dependendo se era propagada uma versão “boa” ou “má” do ficheiro. Esta instabilidade só cessou quando todos os nós do ClickHouse passaram a gerar a configuração defeituosa, estabilizando o sistema no estado de falha.
A resolução efectiva começou quando a equipa identificou que o módulo Bot Management e o respectivo ficheiro de configuração eram a origem dos erros. Por volta das 14:24 UTC, conseguiram interromper a criação e propagação de novos ficheiros de configuração defeituosos. A solução final envolveu a inserção manual de uma versão conhecida e funcional do ficheiro na fila de distribuição e o forçar a reinicialização do proxy central.
Embora o tráfego central estivesse em grande parte normalizado por volta das 14:30 UTC, o volume de erros HTTP 5xx só regressou aos níveis normais às 17:06 UTC, após a mitigação da carga e a reinicialização dos serviços remanescentes.
Em comunicado, a Cloudflare expressou as suas mais sinceras desculpas, classificando a interrupção como “inaceitável” devido à sua importância no ecossistema da Internet. A empresa garantiu que esta detalhada autópsia do problema é apenas o início de um conjunto de medidas que serão implementadas para reforçar os seus sistemas e garantir que uma falha desta natureza não volte a ocorrer, sublinhando o seu compromisso inabalável com a resiliência da rede.