On les a tous vues sur nos comptes Google Analytics, ces visites depuis des sites fantômes avec lesquels notre site n’a aucun rapport: Semalt, Darodar.com, Best-seo-offer.com et bien d’autres.
On pouvait bien ne pas y prêter notre attention, mais leur nombre ne cesse de croître jusqu’à occuper le top de sites réferents.
Voici le rapport sur les sites référents d’une tout petite boutique qui ne fait quasi pas de marketing:
9 sites sur 10 n’ont rien avoir avec cette petite boutique de bijoux. C’est ce qu’on appelle le Spam Referrer.
On va parler ici de ce comment les éradiquer de nos statistiques pour que nos clients aient des données propres (ou plutôt plus propres) et objectives.
Qu’est-ce que le Spam referrer?
Spam referrer est une technique de spam qui consiste à envoyer des visites sur votre site utilisant un faux referrer (page d’origine).
Pourquoi le font-ils?
- pour obtenir des visiteurs curieux s’intéressant à des sites inconnus dans leurs sites réferents;
- pour obtenir des backlinks (p. ex. AWStats);
- pour promouvoir ces prestations et services (souvent SEO);
- pour booster artificiellement le traffic et faire semblant d’un boulot acharné;
- pour infecter votre ordinateur par un cheval de Troie ou autre virus.
Pourquoi éliminer le Spam referrer?
- pour alléger le chargement du serveur et éviter ses retombées;
- pour avoir des métriques comportementaux réelles et correctes;
- pour avoir une compréhension réelle du taux de transformation;
- pour éviter des problèmes éventuels du faux sampling par Google Analytics;
- pour économiser son temps en expliquant aux clients ce que c’est le Spam referrer.
Comment lutter avec?
Pour faire face à ce type de spam, il faut savoir que ce groupe n’est pas homogène et on y distingue plusieurs types de sites. J’aime la typologie proposée par Mike Sullivan dans son billet sur le site AnalyticsEdge.com:
- “Ghost Referrals” (Réferrers fantômes): darodar.com, buy-cheap-online.info, pornhub-forum.ga,
- “Creepy crawlers” (Crawlers terrifiants) et “Fake referrals” (Faux réferrers): semalt, best-seo-solution.com, maridan.com.ua, blog.ranksonic.com,
- “Bots and spiders” (Là, c’est clair)
Bots and spiders
Commençons par le plus simple – détection de robots connus. Les robots font partie tout à fait normale du fonctionnement du Web. Google lui-même est un crawler. Et Google Analytics (ainsi comme la majorité de systèmes analytiques) présente une option de filtrage de tous les robots connus.
Pour le faire, suivez le chemin: Admin > Paramètres de la vue et cochez la case “Exclure tous les appels provenant de robots connus”:
Creepy crawlers
Les visites de ce groupe proviennent de gros crawlers squattant le web afin de compléter sa base analytique et ensuite vendre de telle ou telle manière ces données.
Le cas de Semalt – exclusion de la liste de crawl
Parmi les plus souvent vus – Semalt. Le cas de Semalt se soigne assez facilement: il propose sur sa page d’accueil – http://semalt.net – de stopper le crawl de votre site par Semalt.
D’autres cas – bloquage au niveau du serveur
Là, il y a des variantes. Les accros de Google Analytics préfèrent configurent des filtres d’exclusion pour les sites non-souhaités. Pourtant les visites physiques restent et continueront de charger le serveur.
Je préfère bloquer l’accès pour ces services dès l’entrée – au niveau du serveur.
Pour cela il vous faudra collecter des noms de domaine spammy et ajouter des régles de bloquage dans le fichier .htaccess:
## BLOQUER LE SPAM REFERRER RewriteCond %{HTTP_REFERER} semalt.com [NC,OR] RewriteCond %{HTTP_REFERER} buttons-for-website.com [NC,OR] RewriteCond %{HTTP_REFERER} seoanalyses.com [NC] RewriteRule .* - [F]
Le seul problème est que vous allez avoir une longue liste de règles qui ne sera jamais exhaustive.
Le voici 2 liens pour vous y aider:
- Sur ce lien vous trouverez une variante du fichier .htaccess qui bloque énormément de Spam referrers – https://github.com/Stevie-Ray/htaccess-referral-spam-blacklist-block/blob/master/.htaccess
- Variante du fichier .htaccess qui couple le bloquage au niveau des noms de domaine et les mots-clefs répandus les constinuant – https://perishablepress.com/blacklist/ultimate-referrer-blacklist.txt.
Ghost referrals – referrers fantômes
Conseil: La dernière chose à faire avec les referrers fantômes est d’aller voir ce qui se trouve derrière une adresse inconnue. Méfiez-vous en et vérifiez préalablement le nom de domaine dans Google Search.
Le dernier groupe c’est ce qu’on appelle les Réferrers fantômes. Ce sont des visites que votre site n’a réellement jamais vues. Par exemple, les visites depuis Darodar.com, Priceag.com et d’autres.
Ce traffic peut être généré par des outils qui collectent des identifiants Google Analytics et qui envoient au moyen de Measurement Protocol des requêtes HTTP dans des vues de GA.
Certaines variantes de cette attaque transmettent un mot-clef:
Comme ces visites n’ont jamais existé, on ne pourra pas les capter et bloquer au niveau du serveur (par exemple dans le fichier .htaccess).
Et la seule chose qui nous reste est de configurer des filtres dans nos vues Google Analytics.
Exclure ou inclure: telle est la question!
Le premier problème que l’on rencontre c’est une multitude de noms de domaine à exclure. Pire encore, ils ont tendance à se faire modifier et foisonner. Donc, si on fait un filtre d’exclusion, on sera bien embêté pour maintenir son actualité.
L’autre solution provient du principe que ces sites fantômes envoient des requêtes sans savoir le nom de domaine de la cible. Ainsi, envoient-ils les referrers avec le nom d’hôte qui n’est pas le vôtre.
Donc, on peut se débarasser de toutes ces visites fantômes en créant un filtre personnalisé dans Google Analytics qui n’inclura que des visites liées à notre nom d’hôte.
Ici il faut être prudent et ne pas oublier d’inclure un nom d’hôte nécessaire et perdre des visites précieuses.
- Dans votre compte Google Analytics passez à la page Acquisition > Tout le traffic > Sites référents et sélectionnez une dimension secondaire – Nom d’hôte.
- Parmi tous les résultats sélectionnez ceux qui ont rapport à votre site. Dans le cas de mon blog c’est mon nom de domaine alekseo.com, mais vous pouvez en avoir d’autres.
- Configurez un filtre personnalisé d’inclusion comme celui-ci:
Conseil: En utilisant des filtres, testez-les toujours sur une vue de test pour éviter les erreurs dans la principale. Laissez toujours une vue brute sans aucun filtre.
Et si on résumait:
Pour se débarrasser des visites spam et rendre votre compte Google Analytics plus clean et objectif, procédez ainsi:
- Dans votre compte Google Analytics, cochez la case “Exclure tous les appels provenant de robots connus” car ce n’est pas fait par défaut.
- Sur le site de Semalt ajoutez votre site dans le formulaire d’exclusion de sa liste de crawl.
- Egalement dans votre compte GA créez un filtre personnalisé n’incluant que les visites ayant rapport avec votre nom d’hôte.
- Si vous êtes hébergé sur un serveur Apache, ajoutez des règles dans votre fichier .htaccess bloquant l’accès aux bots indésirables.
- Consultez de temps en temps vos rapports sur les sites référents pour y repêcher d’autres source de Spam Referrer.
En vous souhaitant bonne chance dans votre lutte avec le Spam Referrer, je vous invite à partager votre expérience de ce que vous faites avec!
Billets connexes pour ceux qui veulent savoir plus:
-
- Definitive Guide to Removing Referral Spam sur AnalyticsEdge (en anglais).
- Bloquer le spam referrer chez Didier Sampaolo.
- Analytics, Halte aux spams referrer chez Consultant Web Analytics Gregory Loth.
- Plugin WordPress pour filtrer le Spam Referrer.
Superbe tutoriel, merci beaucoup ! Petit bémol sur l’optimisation des images d’illustrations qui sont tout simplement énormes (je suis à la campagne avec une connexion 1mega/s et elles mettent près de 5 secondes à charger). Un petit coup de GIF ou de tinypng leur aurait fait du bien 😉
Bonjour, Patrice.
Merci pour ton commentaire, j’ai mis à jour les images.
Bien, ton récap’ !
Et bon retour sur la Capitale, donc 🙂
Merci, Emmanuelle! On se verra aux apéros:)
Merci d’avoir partager les fichiers .htaccess. Je pense que cela va en ravir plus d’un. Quand on sait que plus de 50% du trafic web mondial serait généré par des robots, cela peut toujours servir. Le spam referer fait toujours tâche dans les rapports Analytics. Google Analytics n’est malheureusement pas humain et ne fait aucune différence et traque tout. Il ne suffit pas de déposer seulement un code de tracking et le tour est joué. Si on veut analyser de “vraies” visites, un minimum de config est nécessaire.
Dans le même esprit t’as http://smushit.com/ pour compresser les images.
Sinon très bonnes articles et très utilise Je bookmark !
Merci, apparemment l’outil a déménagé ici – http://www.imgopt.com.
Bonjour Alexis
Je fais chaque année un article qui s’appelle “les articles que vous auriez dû lire cette année” et seuls une dizaine de papiers sont sélectionnés. Le vôtre en fera partie, car il traite le sujet avec précision et se rend accessible au plus grand nombre.
Je l’ai déjà mentionné sur Google plus…
Merci, Kristof!
Merci pour l’astuce permettant d’exclure les bots, ça va épurer mes stats 🙂
Merci pour cet article sur le Spam Referrer, j’en ai beaucoup ces derniers temps et ton article me permet d’y voir plus clair sur cette pratique … Il y a de grosses listes de sites identifiés comme spam referer de dispo sur le web?
Bonjour,
Merci pour votre tuto, mais même après avoir appliqué tous vos conseils mes visiteurs (russes…) arrivent à passer au travers et se connectent !!
Je sais que c’est des visites fantômes, donc pas besoin de bloquer au niveau du htaccess mais c’est au niveau des filtres que ça se joue, au niveau de Google Analytics, ils ont du récupérer mon UA-******* donc comment faire ????
Merci d’avance pour votre aide
Bonjour Alexis,
Super article ! Je ne connaissais pas qu’il existe une chose comme un Spam Referrer, et qu’il avait un tel impact. C’est en effet la première fois que j’apprends ceci.
Je compte explorer ton blog davantage, tes articles sont vraiment bien faits.
Bonne continuation !