Googlebot continue de crawler un répertoire alors que je viens de lui interdire via robots.txt
googlebot a mangé 12Go de bande passante ! |
Depuis quelques jours le site avait des erreurs d'accès à la base de données et pleins d'erreurs 500. Au début j'ai pensé que c'était un problème au niveau de l'hébergeur, un espace mutualisé sur ovh.
En allant sur la page des travaux, effectivement, il y avait un souci sur l'hébergement des bases de données. Le lendemain, même symptôme, accès au site impossible, problème d'accès à la base de donnée.
La cliente m'envoie un mail avec une réponse curieuse d'ovh : vous avez 85 000 requêtes sql par minute depuis hier, soit plus de 8 millions d'accès depuis hier.
Volumétrie du site : 130 pages maxi.
J'avais pensé à un problème de hack, mais après avoir installé un plugin pour vérifier les fichiers et les accès, rien d'anormal n'est remonté. Il fallait regarder au niveau des logs.
Comment accéder aux logs pour les hébergements mutualisés chez ovh ?
D'habitude, je met les client sur des serveurs dédiés, mais comme je n'ai plus trop envie de gérer l'infogérance, j'ai utilisé un mutualisé. Avantage, c'est eux qui s’occupent des backups, et si quelque chose plante, le client peut récupérer ses données de la veille.
Si vous êtes sur un mutualisé, il suffit de taper https://logs.ovh.net/votrenomdedomaine.com/ ensuite vous vous connectez avec votre identifiant et mot de pass ovh.
Voilà les logs sur les mutualisés sont là |
Vous aurez alors accès aux statistiques serveurs et aux logs, et là c'est le drame. J'ai une quantité impressionnante d'accès de google à un plugin auquel il ne devait pas avoir accès.
En traduisant un plugin, celui-ci a modifié sa sefurl, donc les paramètres du fichier robots.txt n'étaient pas pris en compte. Imaginez un calendrier ou chaque date mène sur un lien où il ne se passe rien, multiplié par le nombre de vue possible: par mois, par semaine, etc... et vous avez vos 8 millions de crawl des dernières heures.
Google ne prend pas en compte en temps réel le fichier robots.txt. Vous êtes obligé d'aller voir dans la search console quelle est la dernière version qu'il connaît. Donc même si votre robots.txt est correct, il se peut qu'il ne le prenne pas en compte, et continue de crawler et crée des erreurs, ce qui n'est pas très bon.
La réponse m'a été donnée par @jeffpillou
— Jean-François Pillou (@jeffpillou) 24 Janvier 2016
Il faut aller dans "exploration" -> outil de test du fichier robots.txt
Faire vos changements dans l'editeur présent, mettez une url qui devrait être bloquée pour tester, et si c'est ok, cliquez sur le bouton "envoyer"
Editeur robots.Txt de la google search console |
Cliquez sur "demander la mise à jour à google".
Une fois cette opération faite, google s'est arrêté d'aller crawler ce sous répertoire, et le site a pu redémarrer comme il faut.
Rappel : Attention, un crawl ne signifie pas obligatoirement une indexation, mais google a tendance a indexer quand même, il ne vous affichera pas la description et vous indiquera que l'url est bloquée.
Donc au final, faire attention de comment vos extensions réagissent et de bloquer les ressources inutiles, par exemple celles qui n'influencent que l'affichage.
Je vous laisse un petit tuto d'Olivier Duffez à propos du fichier robots.txt
http://www.webrankinfo.com/dossiers/gwt/test-fichier-robots-txt
Aucun commentaire:
Enregistrer un commentaire
Merci de ne pas afficher juste un merci et un lien spammy, argumentez un minimum svp, sinon j'arrête tout, ce serait dommage.
Je modère a priori, ne vous inquiétez pas si votre message n'apparaît pas tout de suite, je fais pleins de choses en même temps.