Le moteur de recherche Google est-il neutre ?

Des résultats de recherche Google, c’est un peu comme l’ADN : ils peuvent être très similaires entre deux personnes, mais personne n’a exactement les mêmes. Pourquoi le plus grand moteur de recherche du monde ne renvoie-t-il pas les mêmes réponses à chacun ? Tu vas voir, c’est encore et toujours une histoire d’algorithmes et de profits.

💡 Pourquoi c’est intéressant ? En ayant conscience de la partialité dont fait preuve Google dans ses résultats, on peut réfléchir plus sereinement à l’impact des technologies sur nos vies et sur l’information que l’on reçoit.

Les faits :

💻 Comment Google fonctionne-t-il vraiment ?

Qu’est-ce qu’il se passe lorsque tu effectues une recherche sur Google ? Comment le moteur de recherche parvient-il à t’afficher des millions de résultats en quelques centièmes de secondes ? En fait, tu peux voir Google comme une bibliothèque géante, gérée par un bibliothécaire très efficace : l’algorithme PageRank (tu peux écouter l’histoire de sa création sur France Inter ou un détail de son fonctionnement dans le JDN).

En 2021, la “bibliothèque” Google contenait 130 000 milliards de pages web, ce qui en fait la plus grande base de données jamais rassemblée. À chaque recherche, l’algorithme de Google parcourt l’index des pages web à la recherche de publication en lien avec le(s) mot(s) demandé(s), puis trie les pages trouvées selon des centaines de critères : affichage de la page, mots-clés, pertinence, expertise, date de publication… Google communique très peu d’informations concernant cet algorithme (BDM, Journal du geek, Junto).

On sait tout de même que, comme beaucoup d’algorithmes, celui de Google se nourrit des recherches déjà effectuées par les utilisateurs : plus le site A est recherché par les visiteurs, plus il a de chance d’être présenté haut lors d’une nouvelle requête. La logique d’autorité entre aussi en compte. Comme l’explique Dominique Cardon dans son ouvrage Culture Numérique, si le site A, bien classé, adresse un lien vers un site B, qu’importe le contexte, l’algorithme de Google considère que le site A accorde de l’importance au site B, qui mérite donc d’apparaître plus haut dans les résultats. C’est grâce à cet entraînement permanent qu’il affine les résultats de ta recherche. Google assure qu’aucun humain n’intervient dans cette curation.

🤖 Un algorithme uniquement robotisé, vraiment ?

Trier des tas de données, c’est l’essentiel du travail d’un moteur de recherches. Il te permet d’avoir accès à un grand choix de documentations diverses, très rapidement, de manière hiérarchisée. Mais dans le cas de Google, une enquête de 2019 du Wall Street Journal révèle que ces choix de curations de l’algorithme, façonné initialement par des ingénieurs, sont influencés par des interventions régulières de ces mêmes ingénieurs. L’algorithme du moteur de recherche n’est donc pas strictement automatisé.

L’enquête révèle les travers de Google Suggest, la fonctionnalité de saisie semi-automatique qui prédit des mots lors d’une recherche, pour aller plus vite. Depuis 2010, de nombreux exemples illustrent ces dérives : en 2012, plusieurs associations françaises de lutte antiraciste signalent que le mot “juif” est très souvent proposé en prédiction lorsque le nom d’une personnalité est recherchée, dénonçant un fichage éthnique illégal en France. La même année, on apprend que l’outil suggérerait rapidement des termes discriminants, racistes ou insultants pour des personnalités, mais aussi pour des expressions comme “les noirs” ou “les juifs”. En 2013, une campagne de l’ONU met en lumière des prédictions homophobes et misogynes généralisées lorsqu’on écrit “Les gays devraient” ou “Les femmes devraient” (Le Monde, Slate, Pink News).

Dans le même temps, Google Suggest lisse certaines prédictions : pour éviter les polémiques, la fonctionnalité propose des prédictions moins virulentes que d’autres moteurs de recherche. C’est notamment le cas lorsqu’on recherche “Joe Biden is” ou “Donald Trump is”, dont les prédictions relèvent plus de l’information que du jugement (L’ADN).

Le Wall Street Journal dévoile aussi que Google a recours à des “listes noires” de sites à ne pas remonter en première page, voire à ne pas montrer du tout. On apprend également que sur le moteur de recherche Google, les plus grandes entreprises (comme eBay, Facebook, Amazon) sont favorisées par rapport aux plus petites, en apparaissant plus souvent en premières dans les résultats (01Net).

🏳️ Une neutralité impossible à atteindre ? C’est là tout le débat.

Pour Guillaume Sire, maître de conférences à l’Institut français de presse, “la neutralité n’existe pas pour les moteurs de recherche”. Il compare un moteur de recherche à un titre de presse : de la même manière que les journalistes qui doivent faire des choix éditoriaux, l’algorithme de Google traite l’information selon les paramètres choisis par les ingénieurs. Tout dépend du point de vue que l’on adopte : considère-t-on Google comme un relais passif d’information ou bien comme un éditeur actif ? Dans le second cas, la partialité est de mise, pour le meilleur comme, parfois, pour le pire.

Selon Guillaume Sire, cinq controverses autour du traitement de l’information par Google demeureront sans réponse consensuelle, mais méritent d’être débattues : la neutralité éditoriale de l’algorithme, l’intervention humaine dans cet algorithme, sa transparence, le favoritisme pour certains services et la personnalisation des résultats. Les connaître, c’est aussi utiliser l’outil avec une pensée critique (INA, Cairn, The Verge).

Dominique Cardon, sociologue spécialisé dans les questions autour du numérique, préfère parler d’une nécessaire “loyauté” des plateformes, plutôt que d’une promesse de neutralité de leur part. Loyauté qui passe par une réelle transparence dans la présentation du fonctionnement des algorithmes aux utilisateurs (Cairn).

🚫 Google et le conflit d’intérêt

Revenons-en à Google. Depuis son lancement en 1998, l’entreprise est devenue bien plus qu’un moteur de recherche. Déjà experte dans la curation en ligne, elle a étendu ses compétences dans d’autres domaines : la cartographie (Google Maps), le mail (Gmail), la culture (Google Livre, Google Play, YouTube) le commerce (Google Shopping), les réseaux sociaux (Google+) et des outils collaboratifs (Google Drive, Google Agenda, Google Meets, Google Workspace, Google Chat) (Wikipédia). À partir de là, difficile de prôner la neutralité dans le choix des contenus remontés. Google possédant le monopole de la recherche en ligne, son algorithme fait automatiquement remonter ses services en haut des pages de requêtes, ce qui lui a déjà valu plusieurs sanctions.

Dès 2017, la Commission européenne amende Google à hauteur de 2,4 milliards d’euros, pour avoir favorisé son service Google Shopping et rétrogradé les sites concurrents. La pratique est jugée anticoncurrentielle. Un an plus tard, l’institution revient à la charge avec une amende record de 4,34 milliards d’euros pour Google et Android, le premier se servant du second pour renforcer la position dominante de son moteur de recherche. Enfin, en 2019, Bruxelles inflige une troisième amende à Google, de 1,49 milliards d’euros, une nouvelle fois pour abus de position dominante, à travers cette fois sa régie publicitaire AdSense (Challenges, Capital, Les Echos).

La même année, l’Autorité de la concurrence (organisme national indépendant surveillant le marché français) sanctionne à son tour Google d’une amende de 150 millions d’euros pour “abus de position dominante” : les règles de son service publicitaire Google Ads, sont “opaques et difficilement compréhensibles” et s’appliquent de manière “inéquitable et aléatoire” aux annonceurs, qui peuvent être exclus de la plateforme. Puis en juin 2021, elle sanctionne de nouveau la firme américaine pour avoir favorisé ses services et particulièrement DFP (le serveur publicitaire) et AdX (qui organise la vente des espaces publicitaires en temps réel), pénalisant les éditeurs de sites et d’applications mobiles (Le Monde, NextInpact).

🌍 Plusieurs Google ?

En juillet 2021, Rodrigo Ochigame et Katherine Ye, respectivement chercheurs et chercheuses au MIT et à la Carnegie Mellon University de Pittsburgh, développent l’outil Search Atlas (pas encore disponible pour le grand public). Leur constat : selon la zone géographique dans laquelle l’utilisateur se trouve et selon la langue de la recherche, les résultats affichés par Google sont totalement différents, ce qui façonne des “frontières de l’information”. Search Atlas invite à dépasser ces frontières virtuelles, en permettant à l’utilisateur de faire des recherches à travers différentes langues et pays et de les comparer. Par exemple, si tu cherches “avortement” sur Google en France, Google en Albanie et Google en Pologne, seuls les deux premiers vont te fournir des informations pertinentes sur l’avortement. En Pologne, Google n’affiche que les résultats traitant de fausses couches (le gouvernement polonais est ouvertement anti-avortement) (Numerama, Le Monde).

Bon à savoir : Google et la question de l’avortement, c’est une longue histoire. En 2014, le moteur de recherche était vivement critiqué pour laisser se diffuser des publicités pour des centres anti-avortement. Deux ans plus tard, c’est l’algorithme de curation de Google qui est pointé du doigt, pour mettre en avant un site et un numéro vert hostile à l’IVG. Enfin, en 2019, The Guardian révèle que Google avait offert 150 000 dollars de publicité gratuite pour le groupe anti-avortement Obria (The Washington Post, Le Monde, The Guardian). Même en France, des luttes ont lieu à répétition pour éviter que des sites d’apparence sérieuse mais pilotés par des groupuscules anti-avortements se retrouvent au-dessus des informations certifiées du gouvernement ou du Planning Familial (en 2013, Le Parisien, en 2016, Journal des Femmes).

L’avortement n’est qu’un exemple des multiples sujets sur lesquels se livrent des formes de luttes numériques – les vaccins, certaines théories du complot, des débats politiques de toutes sortes suscitent les même tentatives de manipulation des résultats de recherche. Pour la présidentielle 2022, rapporte France Info, la guérilla est largement ouverte.

→ Si tu veux approfondir tes réflexions sur ce sujet, je te (re)conseille le livre de Dominique Cardon, Culture Numérique. Tu peux aussi feuilleter les études du CSAlab, Le rôle des données et des algorithmes dans l’accès aux contenus et de l’Institut Montaigne Algorithmes : contrôle des biais SVP.

[Modifications 14.03.2022 : ajout du terme « index » dans le deuxième paragraphe de la partie Comment Google fonctionne-t-il vraiment ? sur recommandation de l’internaute JM Brodu]

Pour compléter ou corriger cette série d’articles et apporter vos sources, 📝 rendez-vous sur sa version participative ou venez 💬 en discuter avec nous sur Discord.

Génération IA - La newsletter pédagogique de Flint sur l'IA