- État Fermée
- Pourcentage achevé
- Type Matérielle
- Catégorie Backend / Core
-
Assignée à
NFrance - Système d'exploitation All
- Sévérité Critique
- Priorité Haute
- Basée sur la version 1.0
- Due pour la version Non décidée
-
Échéance
Non décidée
- Votes
- Privée
FS#183 - Maintenance d'urgence sur l'ensemble des VM cloud
Chers clients,
Les mesures prises ce matin pour soulager l'architecture cloud pendant la phase de restauration
sur une plateforme saine n'ont malheureusement pas suffi.
Aujourd'hui à 15 h 34, les VM ont connu encore une interruption inattendue.
Les services ont été remontés vers 15 h 50, mais l'avancement des opération
de réplication de sauvegarde a été perdu.
Nous n'avons désormais aucune certitude que la réplication puisse s'opérer sans nouveau crash
inopiné du système de stockage.
La seule solution viable pour un retour en fonction des services consiste donc à opérer
la restauration à froid, en arrêtant la plateforme cloud pendant la réplication.
Notre équipe procédera donc un arrêt complet des services ce vendredi soir à 23h.
La réplication intégrale des données sur la nouvelle architecture sera effectuée pendant la nuit
et nous escomptons un retour en fonction des services dans la matinée de samedi, le plus tôt possible,
sans toutefois pouvoir vous préciser à ce stade l'horaire exact.
Nous vous présentons toutes nos excuses pour ce nouvel arrêt et vous invitons à clore logiciellement vos services VM avant 23h.
Nous sommes pleinement conscients des difficultés que cela entraîne et vous assurons que nous mettons
tout en oeuvre pour atteindre la solution pérenne que nous vous devons.
Cordialement,
L'équipe Nfrance
Les mesures prises ce matin pour soulager l'architecture cloud pendant la phase de restauration
sur une plateforme saine n'ont malheureusement pas suffi.
Aujourd'hui à 15 h 34, les VM ont connu encore une interruption inattendue.
Les services ont été remontés vers 15 h 50, mais l'avancement des opération
de réplication de sauvegarde a été perdu.
Nous n'avons désormais aucune certitude que la réplication puisse s'opérer sans nouveau crash
inopiné du système de stockage.
La seule solution viable pour un retour en fonction des services consiste donc à opérer
la restauration à froid, en arrêtant la plateforme cloud pendant la réplication.
Notre équipe procédera donc un arrêt complet des services ce vendredi soir à 23h.
La réplication intégrale des données sur la nouvelle architecture sera effectuée pendant la nuit
et nous escomptons un retour en fonction des services dans la matinée de samedi, le plus tôt possible,
sans toutefois pouvoir vous préciser à ce stade l'horaire exact.
Nous vous présentons toutes nos excuses pour ce nouvel arrêt et vous invitons à clore logiciellement vos services VM avant 23h.
Nous sommes pleinement conscients des difficultés que cela entraîne et vous assurons que nous mettons
tout en oeuvre pour atteindre la solution pérenne que nous vous devons.
Cordialement,
L'équipe Nfrance
Chargement...
Activer les raccourcis clavier
- Alt + ⇧ Shift + l Se connecter/Se déconnecter
- Alt + ⇧ Shift + a Ouvrir une tâche
- Alt + ⇧ Shift + m Mes recherches
- Alt + ⇧ Shift + t Rechercher par ID de tâche
Liste des tâches
- o Ouvrir la tâche sélectionnée
- j Déplacer le curseur vers le bas
- k Déplacer le curseur vers le haut
Détails de la tâche
- n Tâche suivante
- p Tâche précédente
- Alt + ⇧ Shift + e ↵ Enter Modifier cette tâche
- Alt + ⇧ Shift + w Surveiller
- Alt + ⇧ Shift + y Fermer cette tâche
Édition de la tâche
- Alt + ⇧ Shift + s Enregistrer la tâche
L'incident est lié à la concomitance de plusieurs facteurs mais trouve son origine dans une série de disques SSD qui sont tombés en panne simultanément mettant à mal les unités de stockage principales ainsi que les secours.
L'ensemble de l'infrastructure a du être arrêté plusieurs heures afin de préserver l'ensemble des données. Environ 50% des VM ont pu être restaurés a partir des données présentes au moment du crash. 50% a partir d'un snapshot pris un peu plus tôt dans la matinée.
Nous avons également du prendre des mesures immédiates de renforcement de l’architecture de stockage.
Bref ça a été long et difficile pour vous comme pour nous. Nous vous présentons toutes nos excuses et espérons que vous comprendrez que nous ayons mis toute notre énergie dans la préservation de vos données plutôt que dans la restauration rapide des services.
sont de nouveau opérationnels et stables.
Toutes nos excuses pour la gène occasionnée.