• Incident technique avec les images, documents ...


    Lundi 2 Novembre 2015 à 12:39
    Damien_68 Staff

    Bonjour à tous,

    Afin de vous permettre d'avoir un suivi détaillé sur l'incident causant une indisponibilité au niveau des fichiers (images, musiques, documents, etc ...), j'ai pris la décision d'ouvrir ce fil de discussion afin de vous permettre d'avoir un suivi détaillé sur l'incident en cours !

    Le 26 octobre 2015, nous avons commencé à migrer l'ensemble des fichiers de la plateforme vers un nouveau cluster de stockage afin d'augmenter massivement la capacité de stockage et surtout remplacer des machines qui comment à avoir de l'âge (le but étant de remplacer avant que ça casse).

    Dans la nuit du 31/10 au 01/11, la migration des données s'est terminée et le cluster est entré en service.

    Le 01/11, le nouveau cluster lisse les données afin de répartir les données sur les différents serveurs à sa disposition afin d'éviter la saturation d'un des disques du cluster. Cette opération non contournable monopolise l'ensemble des ressources et rend l'accès des données quasi impossible.

    Le 01/11 à 19h, la répartition des données (appelée aussi lissage) est terminée. Au même moment, nous subissons une attaque réseau ralentissant considérablement la plateforme.

    Le 01/11 à 22h30, un souci technique est diagnostiqué sur le nouveau cluster. Celui-ci peine à gérer toutes les requêtes de lectures/écritures des documents. Le problème est suivi durant la nuit.

    Le 02/11 à 08h, l'ensembles des historiques (logs) et statistiques de performance sont épluchés afin d'arriver à une conclusion et prendre les mesures qui s'imposent. 

    Le 02/11 à 10h30, la décision d'ajouter de nouvelles machines supplémentaires est prise afin de pouvoir gérer le flux de requêtes. Malheureusement, le stock de nouvelles machines n'est pas suffisant.

    Le 02/11 à 11h15, après accord avec notre fournisseur serveur, nous récupérons une grosse partie de nos anciennes machines afin de les ajouter au nouveau cluster dans le but de réguler le flux de données.

    Le 02/11 à 11h30, les opérations d'ajout des anciennes machines sont débutées.

    Le 02/11 à 11h45, notre fournisseur livre la dernière machine nouvelle génération qu'il possède en stock.

    Le 02/11 à 11h50, la nouvelle machine est mise en route et son installation est lancée.

    Le 02/11 à 14h, une nouvelle vérification est faite afin de vérifier que les données sont bien là et sans perte. Tout est là, c'est positif !

    Le 02/11 à 16h45, l'intégration de nouvelles machines dans le cluster de stockage suit son cours. L'intégration de machines nécessite une coupure du cluster actuel afin de garantir l'intégrité des données et éviter toute perte de données.

    Le 02/11 à 18h, la reconstitution du cluster avec les machines supplémentaires suit son cours.

    Le 02/11 à 23h, le cluster continue de se réformer sur l'ensemble de machines mises à sa disposition. On va s'accorder 2/3h de sommeil pendant que ça tourne seul.

    Le 03/11 à 07h, la nuit a permis d'avancer énormément. Le cluster devrait être opérationnel pour ce soir :-)

    Le 03/11 à 18h30 : Le cluster a passé le cap des 50% de regénération. Nous devrions pouvoir le remettre en ligne dans la nuit comme prévue. Dans le pire des cas, ça devrait être pour demain courant de matinée.

    Le 04/11 à 00h30 : La dernière phase de réplication des données vient  de se lancer sur les machines. La remise en ligne est prévue entre midi et 14h mais pas avant pour éviter des affichages partiels qui auraient pour aurait pour seul effet de ralentir la mise en ligne complète. Lid fera un petit post avec les détails.

    Le 04/11 à 11h50 : Nous sommes à 95%. Nous devrions pouvoir lancer le cluster aux alentours de 14h. Nous verrons alors comment se comporte le système et si des ajustements sont nécessaires.

    Le 04/11 à 14h40 : 1 000 secondes encore avant de lancer un test du cluster.

    Le 04/11 à 14h46 : Lancement du cluster pour les essais.

    Le 04/11 à 14h51 : La charge est bien tenue pour l'instant.

    Le 04/11 à 15h05 : La charge est toujours bien tenue et maintenant que les caches se regénénèrent, cette même charge diminue. Il nous reste encore du travail, notamment côté surveillance afin de finaliser le lissage des données qui ne devraient pas vous impacter mais peut générer des ralentissements côté chargement. Nous allons également pouvoir travailler afin de préparer les nouvelles machines qui devront remplacer petit à petit les anciennes sans générer de problème.

    Le 04/11 à 16h05 : Nous confirmons la fin de l'incident :-)
    Nous allons encore surveiller les quelques dernières opérations de répartition qui continuent automatiquement dans l'ombre avant de prendre un peu de repos.

     

    >> Ce message sera édité au fur et à mesure des avancées.

    Dernière mise à jour : le 04/11/2015 à 16h08.

     

    Nous vous prions de nous excuser pour la gêne occasionnée !

    Lundi 2 Novembre 2015 à 12:45
    Chrystom

    Super, bon courage, et super initiative ;) 

    Voilà ce que j'appel un bon service, bien meilleur que certains payants.

     

    MERCI  MERCI MERCI.... je vais bosser sur d'autres planches en attendant

    Lundi 2 Novembre 2015 à 12:47
    Dog`s Ethology

    Bonjour,

    Merci pour ces informations, a-t-on une idée du temps que l'ajout des anciennes machines va prendre ? Cela évitera aux impatients de réitérer leurs questions inutilement ?


    Je vous souhaite bien du courage !

    Lundi 2 Novembre 2015 à 12:49
    Marrgot

    Je ne comprends pas grand chose au langage informatique mais je dis Respect ! Pendant qu'il beau (chez moi), d'autres bossent comme des "fous" pour nous. MERCI

    Lundi 2 Novembre 2015 à 12:53
    © Akira

    En espérant que le bug se résolve assez rapidement, merci de travailler aussi dur pour nous. :)

    Lundi 2 Novembre 2015 à 12:54
    Eymeraude

    merci Damien.

    Anne.

    Lundi 2 Novembre 2015 à 12:59
    ♥Betty Boop♥

    Merci pour tous ce travail que vous faites pour nous s'est très apprécié bon courage. 

    Lundi 2 Novembre 2015 à 13:00
    Petite-Louve

    Merci Damien

    martine

    Lundi 2 Novembre 2015 à 13:01
    Miryl

    Merci pour les infos...un vrai thriller informatique wink2

    On attend l'épisode suivant avec impatience et on vous remercie pour tous ces efforts...bon courage!

    Lundi 2 Novembre 2015 à 13:02
    Petite-Louve

    Merci Damien

    Bon courage et bon travail  smile

    martine




    Ce sujet est verrouillé. Vous ne pouvez donc pas poster de nouvelles réponses.