FS#183 : Maintenance d'urgence sur l'ensemble des VM cloud

État Fermée
Pourcentage achevé
100%
Type Matérielle
Catégorie Backend / Core
Assignée à

NFrance
Système d'exploitation All
Sévérité Critique
Priorité Haute
Basée sur la version 1.0
Due pour la version Non décidée
Échéance Non décidée
Votes
Privée

Concerne le projet: Cloud
Ouverte par NFrance - 23/01/2014
Dernière modification par NFrance - 21/05/2019

FS#183 - Maintenance d'urgence sur l'ensemble des VM cloud

Chers clients,

Les mesures prises ce matin pour soulager l'architecture cloud pendant la phase de restauration
sur une plateforme saine n'ont malheureusement pas suffi.

Aujourd'hui à 15 h 34, les VM ont connu encore une interruption inattendue.
Les services ont été remontés vers 15 h 50, mais l'avancement des opération
de réplication de sauvegarde a été perdu.
Nous n'avons désormais aucune certitude que la réplication puisse s'opérer sans nouveau crash
inopiné du système de stockage.

La seule solution viable pour un retour en fonction des services consiste donc à opérer
la restauration à froid, en arrêtant la plateforme cloud pendant la réplication.

Notre équipe procédera donc un arrêt complet des services ce vendredi soir à 23h.
La réplication intégrale des données sur la nouvelle architecture sera effectuée pendant la nuit
et nous escomptons un retour en fonction des services dans la matinée de samedi, le plus tôt possible,
sans toutefois pouvoir vous préciser à ce stade l'horaire exact.

Nous vous présentons toutes nos excuses pour ce nouvel arrêt et vous invitons à clore logiciellement vos services VM avant 23h.
Nous sommes pleinement conscients des difficultés que cela entraîne et vous assurons que nous mettons
tout en oeuvre pour atteindre la solution pérenne que nous vous devons.

Cordialement,

L'équipe Nfrance

Fermée par NFrance
21.05.2019 13:37
Raison de la fermeture : Résolu

Commentaires (4)
Tâches liées (0/0)

NFrance a commenté le 23.01.2014 20:44

Les VM sont en train de repartir progressivement.

NFrance a commenté le 23.01.2014 21:38

Le vm sont maintenant toutes relancés.

L'incident est lié à la concomitance de plusieurs facteurs mais trouve son origine dans une série de disques SSD qui sont tombés en panne simultanément mettant à mal les unités de stockage principales ainsi que les secours.

L'ensemble de l'infrastructure a du être arrêté plusieurs heures afin de préserver l'ensemble des données. Environ 50% des VM ont pu être restaurés a partir des données présentes au moment du crash. 50% a partir d'un snapshot pris un peu plus tôt dans la matinée.

Nous avons également du prendre des mesures immédiates de renforcement de l’architecture de stockage.

Bref ça a été long et difficile pour vous comme pour nous. Nous vous présentons toutes nos excuses et espérons que vous comprendrez que nous ayons mis toute notre énergie dans la préservation de vos données plutôt que dans la restauration rapide des services.

NFrance a commenté le 24.01.2014 04:44

L'architecture Cloud public est de nouveau instable depuis 3h30, nous travaillons à la résolution de ce problème.

NFrance a commenté le 25.01.2014 09:39

Nous avons remplacé l'architecture défaillante dans son ensemble cette nuit, les services
sont de nouveau opérationnels et stables.

Toutes nos excuses pour la gène occasionnée.

	Tâches associées à cette tâche (0)

Chargement...

Raccourcis clavier

Activer les raccourcis clavier

Alt + ⇧ Shift + l Se connecter/Se déconnecter
Alt + ⇧ Shift + a Ouvrir une tâche
Alt + ⇧ Shift + m Mes recherches
Alt + ⇧ Shift + t Rechercher par ID de tâche

Liste des tâches

o Ouvrir la tâche sélectionnée
j Déplacer le curseur vers le bas
k Déplacer le curseur vers le haut

Détails de la tâche

n Tâche suivante
p Tâche précédente
Alt + ⇧ Shift + e ↵ Enter Modifier cette tâche
Alt + ⇧ Shift + w Surveiller
Alt + ⇧ Shift + y Fermer cette tâche

Édition de la tâche

Alt + ⇧ Shift + s Enregistrer la tâche

Travaux et Informations