Incendie OVH et Plan de reprise d'activité

Après l'incendie d'OVH, le point sur notre plan de reprise d'activité

Dans la nuit du 9 au 10 Mars 2021, un incendie s'est déclaré sur le site de Strasbourg de OVHcloud.
Aucune victime dans les rangs d'OVH, ni chez les pompiers ou les forces de sécurité.
Le bâtiment SBG2 est entièrement détruit.
Le point d'avancement OVH est disponible en cliquant sur ce lien

Les informations qui suivent ne sont pas une critique de la société OVHcloud. OVH est un partenaire de longue date et ses équipes font tout leur possible pour rétablir le service.
Nous allons tenter de décrire le vécu de nos équipes lors la mise en place de notre PRA, face aux attentes et au désarroi des clients.

incendie chez OVH à Strasbourg
Un incendie détruit totalement le centre SBG2 de OVHcloud, quid du plan de reprise d'activité ?

Le PRA

Grâce à l'appui de la société Sôter Conseil, nous avons mis en place un plan de reprise d'activité revu récemment, qui prévoie une communication de crise avec publication d'informations sur notre blog, transmises aussi sur Facebook et Twitter.

    Notre plan de reprise d’activité est relativement simple compte tenu du cloisonnement rigoureux de nos services internet.
  • Connexion aux services OVH,
  • Vérification du fonctionnement des serveurs,
  • Vérification de la bonne disponibilité des backups distants,
  • Commande de nouveaux serveurs,
  • Remontage des backups,
  • Transfert des IP,
  • Vérifications et tests.
    Plan B :
  • Si commande impossible, compartimenter des serveurs existants, et continuer sur plan A.
  • Si IP non disponibles, modification des enregistrements DNS clients, et continuer sur plan A.

Premier bilan : deux serveurs détruits, mais pas que…

Deux serveurs intégralement détruits, c'est déjà problématique, mais tous les services de OVH sont touchés, le site de gestion semble saturé, certaines opérations sont fortement ralenties, les serveurs exchange même hors de Strasbourg semblent avoir des problèmes de saturation, etc.

Notre équipe s'est donc s'est mobilisée dès le petit jour pour mettre ne place le plan de reprise d'activité que nous avons revu avec l'aide de la société Sôter en fin d'année dernière.

La PRA, Pas aussi simple que prévu…

Nous avions bien évidemment des sauvegardes distantes de nos serveurs, mais la désorganisation générée par l'incendie dans le fonctionnement d'OVH ne nous as pas permis de répondre aussi vite que nous le souhaitions aux besoins de nos clients.

Pendant un moment, la commande de nouveaux serveurs s'est retrouvée saturée, l'interface de gestion OVH rame affreusement, nous souffrons de nombreuses déconnexions, nos téléphones IP semblent bien calmes, la bascule d'IP est bloquée, bref, il va falloir revoir le PRA en fonction de l'évolution de la situation.

A 11h40, nous arrivons à passer commande d'un serveur sur le datacenter de Frankfort en Allemagne, mise en route prévue en 120 secondes, il est 12h30, le produit est toujours en cours de livraison.

Livraision de serveur chez OVH
Les aléas du PRA, la livraison de serveur se fait attendre.…

Notre plan prévoie la bascule des tous les services (applications hébergées, sites web, emails) sur un nouveau serveur dès sa disponibilité. En cas d'impossibilité de livraison de la part d'OVH, le plan B consisteras à remonter les sauvegardes des serveurs dédiés à d'autres tâches

Le plan B est en lancé

10 mars 2021 à 18:00 - Notre serveur n'as toujours pas été livré.
Octave Klaba (PDG d'OVHcloud) nous promets des serveurs de remplacement, mais ne nous donne pas d'échéance, ni de conditions de mise à disposition.
Une grande partie des services OVH est désorganisée, certains services sont complètement paralysés, mais les équipes d'OVH font le maximum pour remettre en route l'ensemble des services. Cela prendra plusieurs semaines.

Chez AmaZili, c'est aussi la course pour les équipes d'exploitation qui rétablissent les services à partir des sauvegardes sur nos serveur restant en attendant une livraison improbable.
Nous avons mis en place des solutions palliatives pour certains clients qui avaient des urgences à traiter.

11 mars 2021 à 02:00 - Problèmes avec les IP et les DNS.

Face à l'impossibilité de transférer les IP, changement de plan, nos équipes vont reconfigurer tous les enregistrement DNS
La suite après une courte nuit pour nos équipes.

Le point après la première nuit

11 mars 2021 à 06:00 - Notre serveur n'as toujours pas été livré.
Toujours pas de neuf du côté du nouveau serveur.

Chez AmaZili, Toutes les sauvegardes ont été récupérées, nous avons fait un setup temporaire pour l'un de nos clients qui rendais un appel d'offre hier afin de lui permettre de recevoir les mails de la procédure d'enregistrement.
Les équipes ont procédés ensuite à la restauration de sauvegardes sur notre serveur le moins chargé, et vont passer si c'est possible à la reconfiguration des DNS, les IP étant toujours difficiles à transférer d'un serveur à un autre.

Le point par Octave Klaba,Président d'OVHcloud et fondateur d'OVH

11 mars 2021 à 16:40 - Toujours pas de serveur de remplacement
On vous mets en ligne la vidéo de Octave qui fait le point a la mi-journée du 11

L'accès à la vidéo n'étant pas facile sur le site d'OVH, nous avons mis ne place un miroir pour la vidéo
Cette vidéo as été enregistrée dans l'urgence, l'important n'est pas tant la qualité de l'image et du son que les informations données
Octave Kalba parle d'un retour à la normale dans plusieurs semaines.

Le point avant la deuxième nuit

11 mars 2021 à 19:00 - Toujours pas de serveur de remplacement
On sent bien que tout le monde fait des efforts chez OVH, mais toujours pas de serveurs disponibles pour remplacer ceux qui ont brulé.

La sauvegarde d'un premier serveur a été restaurée sur un compartiment temporaire
Les problèmes de propagation de DNS sont toujours là et les modifications prennent du temps
La charge du serveur cible monte, et nous n'avons pas de solution que de faire avec, tout est fait avec des pincettes… Nous tentons la restauration de la sauvegarde du deuxième serveur brûlé.

Le point de la mi-nuit

12 mars 2021 à 01:00 - Toujours pas de serveurs de remplacement
Le serveur commandé chez OVH n'est toujours pas livré. Suite aux communiqués de presse OVH et aux réponses faites à nos demandes via la gestion des tickets, nous avons demandé l'annulation de sa commande et la communication de la procédure de remplacement des serveurs brûlés.

Une sauvegarde d'un second serveur a été restaurée sur un compartiment temporaire
Nous n'avons pas pu remonter la toute dernière sauvegarde, elle était corrompue et donc inutilisable
La charge du serveur cible monte en flèche, nous espérons qu'il va tenir le choc, les performances seront forcément moins bonnes pour l'ensemble des services hébergés. Nous ne pouvons pas rétablir tous les pointages DNS, certains domaines sont gérés directement par les clients, et à cette heure, ils dorment…
Les équipes vont aller prendre un repos bien mérité.

Le point en fin de deuxième nuit

12 mars 2021 à 05:30 - Toujours pas de nouvelles des serveurs de remplacement
Allez les gars, chez OVH, vous devez être aussi fatigués que nous, une procédure de remplacement simple serait la bienvenue.

Les services chez OVH reviennent à la normale, ou presque, les temps de réponse des interfaces de gestion sont maintenant compatibles avec l'état de nerfs de nos équipes.
Vérification du fonctionnement des sites marchands récupérés du jeu de seconde sauvegarde, OK !
Reste à faire repointer tous les DNS dont nous n'avons pas la maitrise.
La journée seras cruciale pour savoir si le serveur cible va tenir la charge.

Le point de la mi-journée

12 mars 2021 à 15:30 - Toujours pas de nouvelles des serveurs de remplacement
Nous avons demandé à OVH l'annulation du serveur commandé à Francfort en Allemagne et toujours pas livré. Nous avons passé commande de deux nouveaux serveurs basés à Roubaix.

L'ensemble des services de nos clients sont restaurés, les sites fonctionnent, les mails arrivent et les applications rendent les services pour lesquels elle sont conçues.
Nous avons eu pas mal de soucis avec la sauvegarde du second serveur et nous n'avons pas pu remonter les derniers backups
En attendant la livraison des nouveaux serveurs nous allons préparer la migration inverse en espérant que nous ne souffrirons pas des lenteurs sur la mise à jour des DNS ou les transferts d'IP..
Nous allons aussi rapidement faire le débriefing avec les équipes de Sôter conseil afin de tirer les leçons de cet épisode de crise en vue d'améliorer notre PRA.

A suivre.

Nous vous offrons une consultation gratuite de 15 minutes !

Posez votre question

Remplissez le formulaire, nous vous rappelons ou appelez le 09 72 27 00 22

Diagnostic communication gratuit

 



Ajouter un commentaire

Les commentaires sur ce fil ne sont plus acceptés.