Blog Etudes IA

Etude : 22% des TOP-100 sites web en France bloquent déjà les bots de GPT, CC ou Bard (6% parmi TOP-10000)

Alexis Rylko

Alexis Rylko

Consultant SEO & Directeur technique SEO chez iProspect France

Depuis de nombreuses années, il existait un accord entre les créateurs de contenu et leurs distributeurs, notamment les moteurs de recherche : les propriétaires de sites web fournissaient un accès à leur contenu, et en retour, les distributeurs les gratifiaient de liens et d’audience. Au final, tout le monde en sortait plus ou moins gagnant.

Et voilà qu’en fin 2022, arrive ChatGPT en accès public et gratuit qui casse cette paradigme : il continue de consommer du contenu, offre un moyen pratique et rapide d’accéder à l’information, et… c’est tout. Tout cela s’accompagne de graves problèmes liés au droit d’auteur, à la fiabilité de l’information non citée et souvent détournée, à la croissance exponentielle du contenu en ligne, et à une augmentation globale de l’intérêt pour l’intelligence artificielle, qui est maintenant littéralement omniprésente.

La question du blocage des bots d’intelligence artificielle se pose plus que jamais. Dans cette étude, nous examinerons ses différents aspects et verrons sur un échantillon de 10 000 des sites web les plus visibles en France qui bloque déjà les bots d’IA (notamment dans les fichiers robots.txt).

Pourquoi bloquer les bots IA ?

Bloquer ou ne pas bloquer : telle est la question. Les raisons peuvent être très variées et chaque propriétaire de site décide lui-même laquelle d’entre elles pèse le plus en faveur du blocage.

  1. Menace existentielle : Si votre audience historique estime que les chatbots IA fournissent des meilleures réponses que vous et finit pas ne plus revenir chez vous, cela met en danger la pérennité de votre activité. C’est notamment le cas aujourd’hui des sites de questions-réponses, forums de développeurs etc.
  2. Menace de perdre une partie des revenus : Si la personne peut trouver sa réponse dans ChatGPT et non pas chez vous, elle n’achètera pas votre abonnement, ne verra la publicité de vos annonceurs, ne s’abonnera pas à votre newsletter etc. La situation s’est aggravée quand OpenAI a admis que le navigateur interne de ChatGPT permettait de contourner les paywalls.
  3. Droits d’auteur et de propriété intellectuelle : OpenAI se permet d’utiliser les contenus web sur le modèle « opt-out » – si le détenteur des droits n’a pas dit « non », c’est « oui ». Toute réponse de l’IA est générée se basant sur les contenus préalablement sauvegardés et traités. L’article L122-4 CPI postule : « Toute représentation ou reproduction intégrale ou partielle faite sans le consentement de l’auteur ou de ses ayants droit ou ayants cause est illicite. Il en est de même pour la traduction, l’adaptation ou la transformation, l’arrangement ou la reproduction par un art ou un procédé quelconque ».
  4. Intention de forcer OpenAI (et toute autre entreprise IA) à payer pour l’utilisation du contenu : Les entreprises IA nécessitent des données textuelles en grandes quantités et à jour pour entraîner leurs modèles, et les sites médias en sont leurs principaux fournisseurs. Comprenant cette dépendance, pourquoi pas présenter un front uni et amener OpenAI à payer pour l’utilisation des contenus ? En avril 2023, Stack Overflow et Reddit ont annoncé qu’ils factureraient les entreprises qui utilisent des données de leurs forums pour entraîner leurs algorithmes.
  5. Considérations éthiques: L’utilisation de robots d’exploration web tels que GPTBot soulève des préoccupations éthiques liées à la vie privée des données et au risque potentiel de fuites de données ou de mauvaise utilisation malgré les efforts de filtrage d’OpenAI.
  6. Par crainte : « Pour l’instant cela ne nous dérange pas trop, mais au cas où, on bloque. De plus, on ne sait pas de quoi votre intelligence artificielle est capable et sera capable demain, par exemple avec l’arrivée de GPT-5 ».
  7. Parce que le voisin bloque : Par instinct de meute ou effet de foule, il en suffit souvent qu’un gros acteur fasse quelque chose, pour que ce soit repris par tout le monde.

Comment bloquer l’accès à GPT et ChatGPT sur mon site ?

Si certaines des raisons ci-dessus vous ont persuadé que le blocage des bots AI était raisonnable, vous pouvez passer à l’action.

Pour comprendre comment restreindre l’accès des bots IA à votre site, il faut comprendre comment ceux-ci collectent les données web.

Quant à OpenAI, la société recourt à 2 principales méthodes :

  1. En collectant les données par leurs propres moyens (leurs propres bots, propres user-agents, propres serveurs).
  2. En traitant les données collectées par tiers (par exemple dans les datasets Common Crawl).

C’est important de le savoir, car juste le fait de bloquer les bots de OpenAI ne sera pas suffisant et vos données pourront bel et bien arriver dans la moulinette IA.

Du point de vue technique, aujourd’hui, il existe deux méthodes officielles pour restreindre l’accès des bots d’OpenAI à nos sites :

  1. Blocage par user-agent.
  2. Blocage par l’adresse IP (liste officielle d’adresses IP utilisées par GPTBot).

Derrière chaque méthode, on peut avoir une série de moyens techniques variés : blocage au niveau serveur, pare-feu, outils tiers de protection etc. Une des méthodes les plus simples consiste à bloquer l’accès aux robots de l’IA dans le fichier robots.txt et c’est ce qui est l’objet de cette étude.

Les bots de OpenAI portent des noms suivants:

  • ChatGPT-User – le bot utilisé dans les plugins ChatGPT permettant d’accéder aux pages web. Les requêtes se font depuis l’adresse IP : 23.98.142.176/28.
  • GPTBot – le bot du principal crawler de OpenAI responsable de l’exploration du web.

On y ajoute CCBot – le bot du crawler de Common Crawl explorant le web.

Et Google-Extended – le plus récent des bots IA présenté le 28 septembre par Google, utilisé dans la collecte des données web pour l’entraînement des modèles de Bard et Vertex AI.

D’après les dernières informations, le blocage de Google-Extended ne vous privera pas d’affichages dans les nouveaux types de résultats de recherche générés par l’IA (SGE) à venir.

Méthodologie du benchmark :

Dataset :

  1. Les 10 000 domaines les mieux classés en France selon l’indice de visibilité SEO de Sistrix.
  2. Les 1000 sites les plus visités en France selon Data For SEO.

Nombre de sites ayant un fichier robots.txt : 9 395 (93.4%).

Identification du blocage :

Dans le cadre de cette étude, je vérifie uniquement le blocage dans les fichiers robots.txt. Cela ne veut pas dire que d’autres méthodes n’ont pas été mises en place.

Pour identifier si le fichier robots.txt contient des instructions restrictives pour les bots AI, chaque fichier a été analysé sur 2 types de blocages, parce que juste le fait qu’il n’y a pas de ligne de type « User-agent: GPTBot Disallow: / » ne veut pas dire qu’il n’y a pas d’interdiction :

  • Blocage explicite : A tous ceux qui ne souhaitent laisser entrer les bots IA, OpenAI et Google proposent d’ajouter des directives restrictives de type :
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
  • Blocage implicite provient d’une autre approche de construire ses instructions dans le fichier robots.txt : « Bloquer l’accès à tous les robots, sauf … ». Dans ce cas-là, les bots d’IA peuvent ne pas être mentionnés explicitement dans le fichier, mais ils seront tout de même bloqués. C’est le cas par exemple de Instagram, Ouest-France, Nouvelle République etc. qui bloquent tous les bots sauf certains moteurs de recherche.

Résultats :

Les principaux résultats sont disponibles ci-dessous. Tous les détails par site sont disponibles dans ce Google Sheet. Les données sont à jour au 9 octobre 2023.

Résultats

Au 9 octobre 2023, 22% des TOP-100 sites en France bloquent déjà au moins un des principaux bots IA. Sur l’ensemble des 9 395 sites étudiées ce ratio est à 5,7%. Logiquement le taux de blocage varie en fonction de la popularité des sites: les gros acteurs en sont davantage préoccupés.

Parmi les bots les plus souvent bloquées, on note les 2 bots de OpenAI – GPTBot et ChatGPT-User – vont quasiment toujours en ensemble.

Ce qui est intéressant c’est 7% de blocages chez les TOP-100 du bot Google-Extended annoncé il y a à peine 10 jours. Ce sera d’autant plus curieux de suivre l’évolution avec l’arrivée des résultats SGE en France.

Certains types de sites bloquent les bots IA plus souvent que les autres. Les taux de blocages les plus élevées appartiennent aux réseaux sociaux, banques d’images, sites d’écoute et de vente de musique, classifieds et annuaires :

Voir les données au format tableau
Type de siteNombre de sites qui bloquentNombre de sites qui ne bloquent pas% de sites qui bloquent
E-commerce86912614,5%
Sites média et informationnels72019126,5%
Sites institutionnels21400,0%
Classifieds et annuaires1455537,9%
Vidéos7956,3%
Dictionnaires591728,8%
Recettes56814,3%
Encyclopédies45920,0%
Q&A27725,9%
Banques d’images221254,5%
Météo18316,7%
Réseaux sociaux16956,3%
Musique9444,4%

Passons maintenant aux exemples concrets : ci-dessous les données pour les TOP-sites pour les principales catégories. Pour rappel toutes les données sont disponibles dans ce Google Sheet.

Réseaux sociaux

Facebook, Instagram, X (Twitter) bloquent déjà tous les bots IA. D’ailleurs, Tiktok pour l’instant n’en bloque aucun.

Sites médias et informationnels

Un avenir de nouvelles générées de manière algorithmique, en particulier des opinions extraites de sources non citées, en tant que méthode prédominante de diffusion, est dystopique. L’impact en résultera en d’énormes dommages pour l’activité essentielle du journalisme lui-même.

Angus McBride, News UK’s General Counsel (NYTimes, le 6 mars 2023).

191 sur 720 sites (26,5%) classés comme sites médias et informationnels bloquent aujourd’hui au moins 1 bot IA.

TOP-30 des sites médias et le statut de blocage des bots IA :

TOP-30 des sites médias qui bloquent au moins 1 bot IA dans robots.txt :

La situation avec le blocage est assez dynamique et il paraît que les discussions sur ce sujet soient vives. Sans connaître la cuisine interne, on peut l’observer sur les changements dans les fichiers robots.txt :

LeMonde.fr a été un des premiers sites médias français à avoir bloqué le bot de ChatGPT. Ce qui est curieux, c’est que le 8 avril cette instruction a disparu et n’a plus jamais réapparu :

BFMTV.com :

N.B. Le fait que les blocages dans les robots.txt ont été enlevés, ne veut pas dire à 100% que l’accès a été autorisé. Il est également possible qu’un autre moyen de blocage en dehors du fichier robots.txt a été mis en place.

Sites E-commerce

126 sur 869 sites (14,5%) classés comme sites e-commerce au sens large bloquent aujourd’hui au moins 1 bot IA.

TOP-30 des sites e-commerce en France et le statut de blocage de bots IA :

TOP-30 des sites e-commerce qui bloquent au moins 1 bot IA dans robots.txt :

Classifieds & Annuaires

55 sur 145 sites (38%) classés comme classifieds ou annuaires bloquent aujourd’hui au moins 1 bot IA.

TOP-30 des sites classifieds et annuaires en France et le statut de blocage de bots IA :

TOP-30 des sites classifieds et annuaires qui bloquent au moins 1 bot IA dans robots.txt :

Dictionnaires

17 sur 59 sites (28,8%) classés comme dictionnaires au sens large bloquent aujourd’hui au moins 1 bot IA.

TOP-30 des sites de dictionnaires en France et le statut de blocage de bots IA :

TOP sites de dictionnaires qui bloquent au moins 1 bot IA dans robots.txt :

Banques d’images

12 sur 22 sites (54,5%) classés comme banques d’images au sens large bloquent aujourd’hui au moins 1 bot IA.

TOP sites de banques d’images en France et le statut de blocage de bots IA :

Q&A et forums

7 sur 27 sites (25,9%) classés comme sites de questions-réponses et de forums bloquent aujourd’hui au moins 1 bot IA.

TOP sites de questions-réponses et de forums en France et le statut de blocage de bots IA :

Encyclopédies en ligne

9 sur 45 sites (20%) classés comme sites d’encyclopédies en ligne bloquent aujourd’hui au moins 1 bot IA.

TOP-30 sites d’encyclopédies en ligne en France et le statut de blocage de bots IA :

Sites de recettes de cuisine

Parce qu’il y a ceux qui aiment générer les recettes de cuisine avec ChatGPT 🙂

8 sur 56 sites (14,3%) classés comme sites de recettes de cuisine en ligne bloquent aujourd’hui au moins 1 bot IA.

TOP-30 sites de recettes de cuisine en France et le statut de blocage de bots IA :

Sites météo

3 sur 18 sites (16,6%) classés comme sites de météo bloquent aujourd’hui au moins 1 bot IA.

TOP sites de météo en France et le statut de blocage de bots IA :

Conclusion


L’arrivée des chatbots conversationnels a bouleversé le paysage des modes de consommation de l’information sur Internet. Selon Similarweb, en septembre 2023, le site chat.openai.com a enregistré 1,5 milliards de visites. Il y a des types de sites web qui ont été les premiers à relever le défi et ont déjà ressenti toute la puissance des chatbots. Les autres sont en attente.

Au 9 octobre 2023 22% des TOP-100 sites les plus visibles en SEO en France bloquent déjà un des principaux bots IA. Sur un échantillon de TOP-10 000 sites ce ratio baisse à 6%.

Quelque soit la raison de blocage, il s’agit surtout d’un travail pour l’avenir, car à l’heure actuelle, il n’existe aucun moyen de supprimer le contenu de votre site web que GPT ou Bard ont déjà traité.

Alexis Rylko

Article de :

Alexis Rylko

Consultant SEO depuis 2009 & Directeur technique SEO chez iProspect France, formateur SEO, conférencier, éditeur de sites & développeur d’outils SEO.
🏆 Jeune personnalité Search de l'année 2022 (SEMY Awards)
🏆 Prix de la "Meilleure campagne SEO 2023" (SEMY Awards).

2 réflexions au sujet de “Etude : 22% des TOP-100 sites web en France bloquent déjà les bots de GPT, CC ou Bard (6% parmi TOP-10000)”

    • Hello Aurélien! Merci pour ton retour, ce commentaire m’a échappé. Je vais l’intégrer dans l’article 🙂

      Répondre

Laisser un commentaire