A Cloudflare enfrentou uma interrupção de aproximadamente cinco horas devido falha no sistema anti-bot, isso afetou o acesso a diversas plataformas online globalmente, incluindo o ChatGPT e a rede social X. A falha, que se configura como a pior desde 2019, foi desencadeada por uma atualização problemática no sistema anti-bot da empresa, resultando em uma sobrecarga nos servidores.
A causa raiz do problema foi identificada em uma consulta mal configurada no ClickHouse, sistema interno de análise de dados. Essa configuração incorreta levou à duplicação de colunas e, consequentemente, ao aumento inesperado do tamanho do arquivo de configuração. Clientes que não utilizavam a função anti-bot não foram impactados pela instabilidade.
Além disso, o incidente culminou no colapso do sistema de proxy central da Cloudflare ao tentar carregar o arquivo corrompido, gerando uma onda de erros HTTP 5xx. Serviços como Workers KV e Cloudflare Access também sofreram impactos indiretos. Inicialmente, a equipe da Cloudflare suspeitou de um ataque DDoS de grande escala.
A partir das 8h28 (horário não especificado), cerca de 20% dos sites que utilizam a rede da Cloudflare começaram a apresentar problemas de acesso.
Com a falha no sistema anti-bot a Cloudflare ficou inacessível
A própria página de status da Cloudflare ficou inacessível, inicialmente levantando suspeitas de um ataque externo. A equipe conseguiu identificar a verdadeira causa do problema às 11h24 (horário não especificado).
Portanto, para restaurar a normalidade, foi necessário substituir manualmente o arquivo defeituoso e reiniciar os servidores afetados. O tráfego normalizou gradualmente até as 14h06 (horário não especificado).
A Cloudflare uma gigante da tecnologia anunciou a implementação de quatro medidas técnicas com o objetivo de evitar a repetição de incidentes semelhantes: validação rigorosa de arquivos internos, criação de botões de emergência globais para desativar funções problemáticas rapidamente, controle do volume de relatórios de erro para evitar sobrecarga dos servidores durante crises, e testes de cenários extremos para identificar gargalos e adicionar redundâncias ao sistema.
