Passer du côté obscur à cause d’un spam : un exemple

  • Date : 03 Nov 2014
  • -Auteur : Sébastien VALLAT
  • -Catégorie : Référencement naturel & Contenus
  • Votre vote :
    1 Star2 Stars3 Stars4 Stars5 Stars
03 Nov 2014

La menace fantôme

La première fois que j’ai lu le mot « spam », j’avoue avoir bien rigolé. Mais c’était il y a longtemps. Je vous parle même d’un temps que les moins de vingt ans ne peuvent pas connaître : Google en ce temps là venait tout juste de naître sous le regard condescendant de Lycos, Yahoo et autre Altavista, et la guerre des étoiles n’était pas encore traduit par « star wars » en français, c’est pour dire… Ainsi, un beau matin, le responsable informatique de l’honorable institut dans lequel j’évoluais nous avait alors fendus d’un courriel qui nous mettait en garde contre les spammeurs, mais dans des termes incompréhensibles pour le commun de ses destinataires, ce qui avait engendré malgré lui un effet ostensiblement comique plutôt qu’inquiétant. J’avais alors envoyé du tac-o-tac, hilare, un mail à toute la communauté pour tenter de leur expliquer le mot « spam » en inventant une origine farfelue (je ne me souvenais pas du fameux sketch de Monty Python), soit une contraction du verbe « se pammer », état émotionnel dans  lequel s’étaient trouvés les hackers après avoir piraté les statistiques de fréquentation des internautes de mon université : car déjà à l’époque, les sites « adultes » tenaient le haut du pavé chez mes collègues…

spam monty python

Aujourd’hui, devenu référenceur, le mot spam m’apparaît nettement moins amusant, surtout quand il s’agit de définir ce qui est de nature à appâter l’un des animaux du bestiaire de chez Google vers l’un des sites que je suis censé au moins maintenir dans les hauts des pages de résultats de ce même Google. Jusqu’alors, je n’avais pas vraiment eu à faire face à de graves menaces, or, Il y a quelques jours, je me suis retrouvé à face à l’un de ces hacks sur wordpress qui a défrayé la chronique cet été.

La traque des clones

La victime, un site d’information dont le trafic avait sensiblement chuté quelques jours auparavant, générait sur chacune de ses pages –soit plus d’un millier – un lien vers des dizaines d’autres sites wordpress de toutes nationalités, avec des pages de destination quasi-clonées au travers d’une trame rédactionnelle identique et bourrée de mots-clé vantant les vertus d’un médicament donné (la seule variable). Toutes ces pages offraient un accès indirect (via un lien masqué qui ne se chargait et s’activait qu’après le clic sur l’image principale) vers un site canadien de vente en ligne dudit médicament. Le backlink en question était posé de manière à être invisible à l’écran par un positionnement largement hors cadre (-3000 à -5000 px en haut à gauche) et changeait à chaque chargement.

De leur côté, les sites pointés (je passe au présent car c’est toujours le cas pour les ¾ des nom de domaines identifiés) hébergent malgré eux toute une arborescence de pages « spammy » sub-dulpiquées (exemples ci-dessous), lesquelles se comptent parfois en centaines : des médicaments donc, mais aussi des pages faisant la promotion des fameux crédits « payday loan ». De plus, dans le contenu-même de ces pages, plusieurs backlinks pointent vers d’autres sites-victimes de manière à former un gigantesque réseau fantôme destiné à booster l’accès d’un site tiers au détriment de milliers d’autres.

Devenus complices involontaires en tant que sources de milliers de liens douteux et/ou de pages clonées tout aussi déplacées, tout ces sites possèdent donc toutes les qualités pour passer du côté obscur du web et subir les foudres filtrantes Google Penguin (réseau de liens), Panda (grosse proportion de pages dupliquées et hors sujet), et bien sûr paydayloan (filtre sur les requêtes spammy) ; c’est d’ailleurs probablement ce qui est arrivé dans notre cas d’étude qui est passé de la 1ère à la 5ème page de google sur une requête large correspondant à son coeur de métier, d’abord quelques jours avant la nouvelle mouture de Penguin, le 14 octobre (premier filtrage paydayloan ?) pour dégringoler complètement après le déploiement de ce dernier.

spam exemple index google

Ce site américain de quelques pages génère en réalité près d’un millier de pages « spammy » indexées par Google ! à droite, les pages de médicament sont toutes les clones des unes des autres, au nom du médicament près. 

La revanche des sites

Le succès de Wordpres ces dernières années a permis le développement de très nombreux « plugins » qui assurent la mise en place d’une quantité de fonctionnalités sur un site web. Et ces milliers de plugins, même quand ils sont conçus par des développeurs chevronnés, ne sont pas à l’abri d’une faille que les hackers peu scrupuleux sont prêts à exploiter. S’assurer de la fiabilité d’un plugin avant de l’utiliser et assurer ses mises à jour est un minimum, mais, on l’a vu, ce n’est pas toujours suffisant pour contrer et surtout détecter que son site a fait l’objet d’une attaque.

Fin Juillet, plusieurs plugins avaient ainsi été signalés comme ayant permis l’ouverture de « portes dérobées » permettant l’accès à toute l’arborescence d’un site afin d’y déposer des fichiers malicieux. L’un deux, wysija newsletters (mailpoët),  avait été utilisé, mais la mise à jour n’avait manifestement pas suffit, ni le retrait pur et simple du plugin quand le spam a été découvert. Un script php retrouvé par les développeurs était bien ancré dans le cœur même de wordpress, dans la partie destinée au templates (/generale-template.php) : ses fonctions permettaient de piocher et d’insérer dynamiquement l’une des 1500 urls contenues dans un autre fichier pirate, licence.txt. Parmi ces urls, les 3/4 répondaient toujours présentes (réponse http 200) ce qui nous autorise à penser que des centaines de sites, sinon des milliers, sont encore touchés.

Bref, que vous soyez victimes ou non, il est fortement conseiller d’effectuer un minimum de contrôles, et ceci de façon régulière :

1) Crawler son site (par exemple via des outils gratuits tels Xenu sur PC ou Integrity sur Mac) : en plus de détecter certains problèmes récurrents avec l’utilisation des CMS (multiplication involontaire de pages dupliquées ou sans contenu), un crawl mettra aussi en lumière l’ensemble des urls accessibles depuis l’arborescence théorique et l’ensemble liens sortants rencontrés. Dans notre cas, c’est ce qui a permis de détecter la présence des liens obscurs.

2) contrôler l’index de Google : un crawl ne suffit si pas les pages spammy n’ont pas de liens direct depuis les pages « théoriques » mais sont seulement accessibles depuis le réseau « fantôme » :  leur présence dans l’index de Google est alors détectable via la commande « site :www.monsite.fr  », ou plus précisément en détectant la présence de mots clé douteux dans l’url (« site: www.monsite.fr inurl: »viagra »») ou dans la balise title (site: www.monsite.fr intitle: »loan »). Si le résultat est positif, repérez le / les dossier(s) incriminés pour mesurer l’ampleur des dégâts (site:www.monsite.fr inurl : « /products/ ») et accélerer l’élimation des urls (voir plus bas).

3) Contrôler ses backlinks : On peut raisonnablement penser qu’un certains nombre de liens vers les pages pirates de votre site vont être détectés via les outils d’analyses de backlinks sur le marché, tel Majestic ou Ahref (y compris par les versions basiques gratuites). L’outil pour les webmaster de Google peut également vous aider à détecter un certain nombre d’entre eux. De plus, une montée brusque, tout du moins inattendue, du nombre de backlinks doit également vous mettre la puce à l’oreille quant à une possible invasion de votre site (figure ci-dessous).

spam-flambee-backlink_0

Doublement du nombre de backlinks en quelques semaines au cours de l’été sur le même site à cause d’un spam identique sur des centaines d’autres sites

4) L’analyse des logs de votre site, notamment les visites des bots, est également riche en enseignement. Une explosion du nombre de pages visitées par rapport à ce qui est attendu (par rapport à votre sitemap théorique par exemple) doit permettre de soulever quelques lièvres, notamment dans le cas particulier où de très nombreuses pages web indésirables sont créées et surtout visitées. Pas mal de solutions plus ou moins complexes et/ou onéreuses existent sur le marché (watussi, crawltracks, botify, aposition…). A défaut, l’outil de Google pour les webmasters (Eploration / statistiques sur l’exploration) pourra vous donner quelques indices si un pic anormal se dessine sur le graphe, mais les données sont toutefois très imprécises.

Si malheureusement votre site est bel et bien piraté et que les mises à jour effectuées ne changent rien à l’affaire, tentez de retrouver les scripts et autres fichiers malfaisants dans l’arborescence et supprimez-les (par défaut, votre serveur renverra alors une réponse http 404 aux différentes requêtes), sinon empêchez au moins la création d’url contenant les dossiers incriminés via une fonction htaccess.  Afin d’éliminer rapidement les urls indésirables de l’index des moteurs de recherche, forcez une réponse 410 si ces dernières présentent toutes un schéma récurrent (contenu dans un même dossier : par exemple, via le htaccess :  RewriteRule ^(.*)/nom-du-dossier-verolé – [G]).

Inutile de demander le désaveux des sites pointant involontairement vers vous, car cela risquerait plus de pénaliser ces derniers que de vous en faire profiter. En revanche, contrairement à ce que j’ai pu rencontrer dans mon analyse, ne faites surtout pas de redirection définive (301) vers une page valide de votre site, car vous risqueriez de récupérer une éventuelle pénalité !!!

Mieux vaut prévenir que guérir, certes, et de nombreuses solutions sont offertes sur le marché, mais le propre du hacking est justement de détourner toutes les barrières existantes, lesquelles sont donc par définition instables et condamnées à être franchies. Bref, à moins d’être un maître jedi de la sécurité ou du développement, l’utilisation de base des CMS tels que WordPress ne permet pas de dormir sur ses deux oreilles. En revanche, surveiller un minimum l’état de son site est à la portée de tous. Mais en cas de doutes ou de gros soucis, vous aidez, nous pouvons !

Share Button