• Résolu Maintenance Eklablog exceptionnelle...3 jours de suite


    Samedi 20 Mars 2021 à 19:58
    lid Staff

    Alors, Bing, comme Google, c'est un moteur de recherche. ça veut dire qu'ils ont des milliers de machines destinées à "crawler" (visiter) et indexer le contenu de millions et de millions de sites, dont Eklablog. En fait, le trafic des robots d'indexation sur la plupart des plateformes sur lesquelles j'ai la chance de travailler, ça représente 50% du trafic total, le reste étant de l'ordre de 20% de "bots" de spam, et 30% d'"organiques", de vrais humains derrière un écran et un clavier (ou un smartphone).

    Normalement, ça fonctionne plutôt bien, c'est à dire que les visites des "robots d'indexation" de Google ou Bing ne produisent pas plus de charge sur les machines qu'un humain, voire moins car ils ne mettent pas de contenu en ligne, ils font juste de la lecture.

    Pour la lecture on a des mécanismes de mise en cache (c'est à dire qu'on va stocker les images, le texte, le css, etc, d'un blog en mémoire vive (RAM), très rapide, et donc un blog avec du trafic sera directement en cache, tout le temps.) qui fonctionnent bien (Varnish Cache, pour ceux qui sont intéressés), pour l'écriture on peut délayer la charge en utilisant des mécanismes de files d'attente (ActiveMQ, RabbitMQ par exemple), bref en situation normale on peut tout à fait absorber le trafic.

    Par contre, dans certains cas de figure, on peut avoir un comportement anormal de ces robots d'indexation, par exemple, ils vont tout à coup débouler à 6000 et demander des tonnes de contenu jamais visité (blogs vides, blogs de spams passés à travers la moulinette, blogs abandonnés, etc) qui ne sont pas en cache, ce qui induit une charge plus importante sur la "backend", c'est à dire les machines de bases de données, de stockage d'images, etc, car le cache doit passer son temps à aller chercher le contenu  demandé par les bots en "backend".

    à ce moment le cache passe donc son temps à invalider du cache "légitime" pour stocker temporairement des données "peu visitées" qui vont être remplacées en quelques secondes par les données "légitimes" remises en cache (donc, rechargées de la backend), et c'est vite un cercle vicieux où la charge finit par augmenter sur toutes les machines de la plateforme. Ça arrive parfois, et les bots de Bing sont connus pour être "violents" par intermittence (ceux de pinterest et hellocotton sont bien "bourrins" aussi, d'ailleurs, mais ils ne sont pas des milliers à débouler d'un coup  :')), mais ce n'est pas forcément évident à détecter car on considère le trafic des robots d'indexation comme étant légitime par défaut.

    Donc là, j'ai filtré pour le week-end les requêtes des bingbots, j'ai augmenté la quantité de mémoire réservée au cache, modifié la configuration de la BDD en lui allouant plus de ressources (en surveillant d'éventuels effets de bord indésirables) et je vais les rate-limit quelques jours la semaine prochaine. Au passage on a eu le même problème de bingbots en folie sur Overblog la semaine dernière :)

    en espérant avoir été à peu près compréhensible :)

    Bon week-end et bonne soirée à toutes et à tous,

    lid'

    Samedi 20 Mars 2021 à 21:23
    stormalo

    Bonsoir, lid

    Plus compréhensible?  certainement ! cool

    Je retiens que l'expression  'A première vue on se fait "taper dessus" par Bing de façon aléatoire mais bien violente', signifie:  'Bing nous envoie de façon aléatoire et massive, une armée de robots faire de l'exploration profonde. Par le volume de leurs requêtes inhabituelles cela met à mal la régulation des flux sur les machines'.

    Merci de cette vulgarisation qui permet de nous éclairer, un peu, sur une réalité qui je pense échappe à la plupart d'entre nous.

    Bon dimanche, sans sms d'alerte  smile

    Samedi 20 Mars 2021 à 21:25
    NicoSite

    merci c'est plus clair :)

    Samedi 20 Mars 2021 à 21:55
    lid Staff

    @stormalo: ahah c'est exactement ça, disons que dans le feu de l'action il est plus difficile d'expliquer en détail :')

    Dimanche 21 Mars 2021 à 10:01
    Pipiou

    Bonjour,

    c'est vrai qu'un moteur de recherches... doit chercher... pour pouvoir afficher !
    Et pour chercher, il doit forcément "aller voir", mémoriser, et ensuite afficher (ou pas). 

    Mais entre être balayé régulièrement et recevoir une armée de balayeurs : ça n'a évidemment pas le même impact sur les plateformes  ouch 

    Merci Lid, tant pour le taf que pour les infos éclairantes  cool

     

    Dimanche 21 Mars 2021 à 10:15
    Françoise (Réunion)

    Bonjour et merci à vous LID pour toutes vos explications et bon courage pour la suite.

    Mes amitiés de la Réunion.

    Lundi 22 Mars 2021 à 23:48
    Marc81

    Bonsoir.
    Autre inconvénient de cette affaire : l'impact sur le référencement.
    2 jours après la "panne", chute de mon classement dans les résultats de recherche Google. Et derrière, il va falloir ramer avant d'espérer pouvoir revenir dans la course...

    Mardi 23 Mars 2021 à 08:08
    Pipiou

    Bonjour Marc81,

    j'ai fait une recherche Goog. avec "parler français" = ton blog est le premier de la liste.

    Pour l'élevage (qu'est-ce que c'est mignon !)  le titre du blog est joli mais n'est ni représentatif ni déterminant : à mon avis tous les sites/blogs qui contiennent le mot "husky" (et probablement "élevage") dans le titre passeront avant le tien.

    (mais ce n'est que mon avis :) 

     

    Mardi 23 Mars 2021 à 10:47
    Marc81

    Bonjour Pipiou,
    Oui, tu as raison, sauf que je ne parlais pas de requêtes sur le nom de mes sites, mais sur des mots-clés très recherchés.
    Si je me suis permis de faire cette observation, c'est parce que je suis le classement de mon élevage très régulièrement depuis 10 ans, toujours avec les mêmes requêtes. Donc je sais exactement à quel moment je gagne ou je perds des places. Et ces derniers mois/années, j'ai constaté qu'à chaque fois que la plateforme Eklablog a ce type de problèmes (je pense également aux suspensions temporaires subies en fin d'année dernière), cela a un effet quasi immédiat (disons dans les 2-3 jours suivants) sur le classement...
    (mais ce n'est qu'un constat de mon côté :)




    Vous devez être membre pour poster un message.