Contenu dupliqué

Eviter la duplication de contenu

En matière de référencement naturel, l’un des principaux écueils que l’on rencontre est la duplication de contenu, également appelée « duplicate content », chez les amateurs de la langue de Shakespeare. Elle arrive le plus souvent sans même que les personnes gérant le site ne se rendent compte du problème. Elle peut pourtant avoir des répercussions fâcheuses sur le positionnement du site. Elle déplaît aux moteurs de recherche et dilue les liens externes durement acquis entre plusieurs pages différentes.

Vu du Web vous propose de découvrir d’où provient la duplication et comment l’éviter, pour de meilleures performances sur les moteurs de recherche !

Qu’est-ce que le contenu dupliqué ?

Avant toute chose qu’entend-on exactement par contenu dupliqué ?
On parle de duplication de contenu à partir du moment où un même texte est accessible sur deux URL différentes. Par exemple, si vous publiez exactement le même texte sur les deux URL suivantes :
– www.exemple.com/premier-texte
– www.exemple.com/deuxieme-texte

Ce sera de la duplication. Il est à noter que la duplication de contenu peut se faire également entre deux domaines différents, mais nous n’aborderons ici que la duplication interne, au sein d’un même domaine.

Les moteurs de recherche n’apprécient guère la duplication de contenu. Pour eux, cela ne rend absolument pas service à l’utilisateur, qui rencontre plusieurs fois le même contenu alors qu’il parcourt votre site. Pour les moteurs, c’est aussi une perte de temps et de ressources : pendant qu’ils prennent du temps à explorer et analyser les pages dupliquées inutiles, ils ne passent pas sur les pages qu’ils considéreraient utiles.
Pour toutes ces raisons, Google et consorts dévalorisent la duplication de contenu, qu’elle soit volontaire ou accidentelle. Vous allez donc devoir veiller à ce qu’on n’en retrouve pas sur votre site.

D’où vient la duplication de contenu ?

Comme expliqué plus tôt, la duplication apparaît le plus souvent sans qu’on s’en rende compte. Il est donc nécessaire d’être attentif et de prévenir son apparition. Plusieurs indices peuvent vous mettre la puce à l’oreille. Par exemple, si vous tapez la requête « site:http://www.exemple.com » sur Google, vous verrez combien de pages le moteur de recherche a indexé. Si vous vous retrouvez avec 150 000 résultats au lieu de 50, peut-être souffrez-vous de duplication…

Elle apparaît de façon involontaire à l’occasion de certaines erreurs. Par exemple, si votre site est accessible aussi bien avec que sans www ou à la fois en https et en http, Google passera sur les deux versions et pourra indexer les deux indépendamment, entraînant la duplication totale du contenu. Le problème peut aussi arriver si vous avez acheté plusieurs noms de domaine pour protéger votre nom de marque (exemple.net, exemple.fr, exemple.eu, etc.), mais que vous vous contentez de reprendre le contenu sur toutes les versions au lieu de simplement rediriger les noms de domaine vers votre véritable site.

Un autre problème récurrent sur de nombreux site e-commerce est la duplication de contenu causée par les paramètres. Beaucoup de sites mettent en place ce que l’on appelle une navigation à facettes, c’est-à-dire des filtres qui permettent de réduire une liste de produits en fonction de critères. Par exemple, l’utilisateur peut décider de limiter la liste aux articles d’une certaine couleur, d’une certaine taille ou d’un certain prix. Or, cela passe généralement par la création d’URL avec des paramètres. Supposons que sur la page http://www.exemple.com/accessoires, l’utilisateur puisse cliquer sur des boutons lui permettant de sélectionner les produits en fonction de leur marque, cela créera de nouvelle URL telles que :
– http://www.exemple.com/accessoires/?=marque-exemple
– http://www.exemple.com/accessoires/?=marque-exemple2
– http://www.exemple.com/accessoires/?=marque-exemple3
– …

Une URL sera générée pour chaque marque disponible, ainsi que pour chaque autre paramètre existant. Le problème est que ces URL sont accessibles aux moteurs de recherche, autrement dit, pour eux, chacune d’entre elle sera une page différente de votre site ! On comprend donc que le nombre de pages dupliquées puisse très rapidement augmenter, surtout quand les paramètres peuvent se cumuler !
A tous ces problèmes s’ajoute évidemment la duplication volontaire, qu’il est nécessaire d’éviter.

Comment régler les problèmes de duplication ?

On le constate, il existe de nombreuses façons dont le contenu dupliqué peut apparaître. Une fois le problème identifié, comment s’en débarrasser ?

Plusieurs solutions existent en fonction du problème et des possibilités d’évolution de votre site. Quand il est accessible avec ou sans www ou qu’il est dupliqué sur plusieurs noms de domaines, mettre en place une redirection 301 vers votre domaine préféré suffira à régler le problème. Dans les cas plus complexes, il sera nécessaire d’envisager d’autres solutions.

Vous pouvez notamment avoir recours à la balise canonical, créée spécifiquement pour régler ce type de souci : en cas de duplication complète de votre texte sur plusieurs pages, vous pourrez indiquer une URL de référence. Les moteurs de recherche reconnaissent cette balise et comprendront donc quelle page doit être indexée et présente dans leur index. Une solution plus radicale consiste à remplir la balise robots avec l’attribut noindex, qui indiquera aux moteurs de recherche de ne pas indexer la page.

Attention à ne pas confondre avec le robots.txt, qui est un fichier situé à la racine de votre site qui indique aux moteurs de recherche quelles pages ils peuvent explorer ou pas. Il est à noter que contrairement à ce qui est souvent dit, le robots.txt ne sert pas à désindexer des pages ! Si vous interdisez aux moteurs d’explorer les pages que vous voulez désindexer, par exemple, vous les empêcherez simplement d’y passer, mais s’ils les connaissent déjà, ils les garderont dans leur index ! Par ailleurs, si les moteurs accèdent à la page bloquée en passant par un lien externe, ils pourront parfaitement explorer la page… et l’indexer !

Enfin, vous pouvez également passer par le htaccess de votre site pour désindexer les pages problématiques. Cela est notamment plus pratique pour faire disparaître un répertoire complet de votre site.

Enfin, si vous avez dupliqué plusieurs fois du contenu sur de nombreuses pages de votre site, pas de secret : il vous faudra faire des choix. Soit vous supprimez les pages en trop (et vous les redirigez en 301 vers les pages que vous souhaitez garder), soit vous changez votre contenu et vous vous assurez qu’il ne puisse plus être confondu avec un autre. Bien entendu, cela implique que chaque page ait sa propre valeur ajoutée et soit utile à l’utilisateur. Si vous ne pouvez pas changer le contenu d’une page sans vous contenter d’en paraphraser une autre… mieux vaut sans doute la supprimer !

Conclusion : la duplication de contenu, dangereuse, mais réparable

D’une manière générale, la duplication de contenu est à éviter. Les moteurs de recherche ne l’apprécient pas, les utilisateurs non plus, et elle est souvent signe de problèmes de conception du site, qui peuvent être source d’encore plus de failles pour votre positionnement.

Régler les problèmes de duplication implique souvent du développement, pour corriger les erreurs de conception. C’est l’une des raisons pour lesquelles il est fortement recommandé de prévoir une stratégie de référencement en amont de la mise en ligne du site web : cela vous évitera des coûts de développement supplémentaires pour créer un site adapté aux exigences des moteurs de recherche.

Pour de meilleures performances, faites appel à une agence telle que Vu du Web, qui saura préconiser des optimisations à votre site en préproduction, afin qu’il soit lancé sur de bonnes bases !