Travaux et Informations

  • État Fermée
  • Pourcentage achevé
    100%
  • Type Matérielle
  • Catégorie Backend / Core
  • Assignée à
    NFrance
  • Système d'exploitation All
  • Sévérité Critique
  • Priorité Haute
  • Basée sur la version 1.0
  • Due pour la version Non décidée
  • Échéance Non décidée
  • Votes
  • Privée
Concerne le projet: Cloud
Ouverte par NFrance - 23/01/2014
Dernière modification par NFrance - 21/05/2019

FS#183 - Maintenance d'urgence sur l'ensemble des VM cloud

Chers clients,

Les mesures prises ce matin pour soulager l'architecture cloud pendant la phase de restauration
sur une plateforme saine n'ont malheureusement pas suffi.

Aujourd'hui à 15 h 34, les VM ont connu encore une interruption inattendue.
Les services ont été remontés vers 15 h 50, mais l'avancement des opération
de réplication de sauvegarde a été perdu.
Nous n'avons désormais aucune certitude que la réplication puisse s'opérer sans nouveau crash
inopiné du système de stockage.

La seule solution viable pour un retour en fonction des services consiste donc à opérer
la restauration à froid, en arrêtant la plateforme cloud pendant la réplication.

Notre équipe procédera donc un arrêt complet des services ce vendredi soir à 23h.
La réplication intégrale des données sur la nouvelle architecture sera effectuée pendant la nuit
et nous escomptons un retour en fonction des services dans la matinée de samedi, le plus tôt possible,
sans toutefois pouvoir vous préciser à ce stade l'horaire exact.

Nous vous présentons toutes nos excuses pour ce nouvel arrêt et vous invitons à clore logiciellement vos services VM avant 23h.
Nous sommes pleinement conscients des difficultés que cela entraîne et vous assurons que nous mettons
tout en oeuvre pour atteindre la solution pérenne que nous vous devons.

Cordialement,

L'équipe Nfrance
Fermée par  NFrance
21.05.2019 13:37
Raison de la fermeture :  Résolu
Admin
NFrance a commenté le 23.01.2014 20:44
Les VM sont en train de repartir progressivement.
Admin
NFrance a commenté le 23.01.2014 21:38
Le vm sont maintenant toutes relancés.

L'incident est lié à la concomitance de plusieurs facteurs mais trouve son origine dans une série de disques SSD qui sont tombés en panne simultanément mettant à mal les unités de stockage principales ainsi que les secours.

L'ensemble de l'infrastructure a du être arrêté plusieurs heures afin de préserver l'ensemble des données. Environ 50% des VM ont pu être restaurés a partir des données présentes au moment du crash. 50% a partir d'un snapshot pris un peu plus tôt dans la matinée.

Nous avons également du prendre des mesures immédiates de renforcement de l’architecture de stockage.

Bref ça a été long et difficile pour vous comme pour nous. Nous vous présentons toutes nos excuses et espérons que vous comprendrez que nous ayons mis toute notre énergie dans la préservation de vos données plutôt que dans la restauration rapide des services.

Admin
NFrance a commenté le 24.01.2014 04:44
L'architecture Cloud public est de nouveau instable depuis 3h30, nous travaillons à la résolution de ce problème.
Admin
NFrance a commenté le 25.01.2014 09:39
Nous avons remplacé l'architecture défaillante dans son ensemble cette nuit, les services
sont de nouveau opérationnels et stables.

Toutes nos excuses pour la gène occasionnée.

Chargement...

Activer les raccourcis clavier

Liste des tâches

Détails de la tâche

Édition de la tâche