Ce mardi 18 novembre, une panne massive chez Cloudflare a mis à l’arrêt une partie importante du Web mondial. Des services comme ChatGPT, X, Grindr ou League of Legends ont cessé de fonctionner pendant plusieurs heures, provoquant une vague de signalements partout dans le monde et attirant rapidement l’attention des utilisateurs comme des moteurs de recherche. Cloudflare a depuis publié un compte rendu détaillé de l’incident sur son blog officiel, qui permet de comprendre précisément ce qui a provoqué la coupure et comment le réseau a fini par revenir à la normale. Témoignages.
Contrairement aux premières hypothèses — y compris en interne — l’incident n’a pas été provoqué par une attaque DDoS ou par une action malveillante. Tout est parti d’un changement de permissions au sein d’un cluster ClickHouse chargé de générer un fichier de configuration utilisé par le module de gestion des bots. Ce fichier, mis à jour toutes les cinq minutes, a soudainement doublé de taille en raison de données dupliquées. Propagé ensuite à l’ensemble du réseau mondial de Cloudflare, il a provoqué la défaillance des logiciels responsables du routage du trafic. « Autant dire que c’était un peu la panique à bord, alors que nous étions en plein enregistrement », confie ce youtubeur d’entreprise, qui a dû retarder l’enregistrement de podcasts.
Les machines cherchaient à préallouer de la mémoire pour ce fichier de caractéristiques utilisé par le modèle interne d’analyse des bots. Or la nouvelle taille dépassait les limites prévues. Cette surcharge déclenchait une erreur fatale dans le proxy, entraînant des réponses HTTP 5xx sur d’innombrables requêtes. Le système oscillait entre états fonctionnels et défaillants, les fichiers valides et corrompus se relayant selon les nœuds ClickHouse impliqués dans la génération.

Ce dysfonctionnement a touché le cœur du réseau, ce qui explique pourquoi des services majeurs, mais aussi Cloudflare lui-même, se sont retrouvés inaccessibles : « Dans ces moments-là, on réalise notre dépendance au Cloud et aux fournisseurs américains… ne serait-ce que pour répondre aux clients via les chatbots », avoue sous couvert d’anonymat ce cadre dans une grande banque française.
Services KV, authentification via Cloudflare Access, Turnstile sur les pages de connexion et même le tableau de bord interne ont été affectés. L’équipe a d’abord tenté de diagnostiquer un pic inhabituel suggérant une attaque, avant d’identifier la cause véritable et d’arrêter la propagation du fichier erroné. À 15 h 30 (Paris/Bruxelles), un fichier valide était distribué à l’ensemble de l’infrastructure et le trafic redevenait majoritairement normal. Le rétablissement total a été confirmé à 18 h 06, heure de Paris. Un soulagement pour ce copywriter : « J’ai beau utiliser des logiciels open source comme Anytype, par ailleurs décentralisés, certains encodages passent par des applications Cloud… qui ont été à l’arrêt durant plusieurs heures. »
Un incident majeur qui expose les limites de systèmes critiques
L’analyse de Cloudflare permet de comprendre comment un fichier généré toutes les cinq minutes peut perturber l’un des réseaux les plus résilients de l’Internet. La combinaison d’un changement de permissions, d’hypothèses historiques restées dans certaines requêtes et de limites internes non surveillées a suffi à déclencher une panne rare à cette échelle. Plusieurs mesures ont déjà été annoncées pour éviter que ce scénario se reproduise, notamment une validation plus stricte des fichiers de configuration générés automatiquement, de nouveaux mécanismes d’arrêt d’urgence et une révision plus large des chemins d’erreur au sein du proxy.
Cet épisode rappelle que même les infrastructures les plus robustes restent vulnérables à des points de défaillance parfois très éloignés de l’apparente complexité du système global.
