01-03
Flint Production
Le moteur de recherche Google est-il neutre ?
Des résultats de recherche Google, c’est un peu comme l’ADN : ils peuvent être très similaires entre deux personnes, mais personne n’a exactement les mêmes. Pourquoi le plus grand moteur de recherche du monde ne renvoie-t-il pas les mêmes réponses à chacun ? Tu vas voir, c’est encore et toujours une histoire d’algorithmes et de profits.
💡 Pourquoi c’est intéressant ? En ayant conscience de la partialité dont fait preuve Google dans ses résultats, on peut réfléchir plus sereinement à l’impact des technologies sur nos vies et sur l’information que l’on reçoit.
Les faits :
đź’» Comment Google fonctionne-t-il vraiment ?
Qu’est-ce qu’il se passe lorsque tu effectues une recherche sur Google ? Comment le moteur de recherche parvient-il à t’afficher des millions de résultats en quelques centièmes de secondes ? En fait, tu peux voir Google comme une bibliothèque géante, gérée par un bibliothécaire très efficace : l’algorithme PageRank (tu peux écouter l’histoire de sa création sur France Inter ou un détail de son fonctionnement dans le JDN).
En 2021, la “bibliothèque” Google contenait 130 000 milliards de pages web, ce qui en fait la plus grande base de donnĂ©es jamais rassemblĂ©e. Ă€ chaque recherche, l’algorithme de Google parcourt l’index des pages web Ă la recherche de publication en lien avec le(s) mot(s) demandĂ©(s), puis trie les pages trouvĂ©es selon des centaines de critères : affichage de la page, mots-clĂ©s, pertinence, expertise, date de publication… Google communique très peu d’informations concernant cet algorithme (BDM, Journal du geek, Junto).Â
On sait tout de mĂŞme que, comme beaucoup d’algorithmes, celui de Google se nourrit des recherches dĂ©jĂ effectuĂ©es par les utilisateurs : plus le site A est recherchĂ© par les visiteurs, plus il a de chance d’être prĂ©sentĂ© haut lors d’une nouvelle requĂŞte. La logique d’autoritĂ© entre aussi en compte. Comme l’explique Dominique Cardon dans son ouvrage Culture NumĂ©rique, si le site A, bien classĂ©, adresse un lien vers un site B, qu’importe le contexte, l’algorithme de Google considère que le site A accorde de l’importance au site B, qui mĂ©rite donc d’apparaĂ®tre plus haut dans les rĂ©sultats. C’est grâce Ă cet entraĂ®nement permanent qu’il affine les rĂ©sultats de ta recherche. Google assure qu’aucun humain n’intervient dans cette curation.
🤖 Un algorithme uniquement robotisé, vraiment ?
Trier des tas de données, c’est l’essentiel du travail d’un moteur de recherches. Il te permet d’avoir accès à un grand choix de documentations diverses, très rapidement, de manière hiérarchisée. Mais dans le cas de Google, une enquête de 2019 du Wall Street Journal révèle que ces choix de curations de l’algorithme, façonné initialement par des ingénieurs, sont influencés par des interventions régulières de ces mêmes ingénieurs. L’algorithme du moteur de recherche n’est donc pas strictement automatisé.
L’enquête révèle les travers de Google Suggest, la fonctionnalité de saisie semi-automatique qui prédit des mots lors d’une recherche, pour aller plus vite. Depuis 2010, de nombreux exemples illustrent ces dérives : en 2012, plusieurs associations françaises de lutte antiraciste signalent que le mot “juif” est très souvent proposé en prédiction lorsque le nom d’une personnalité est recherchée, dénonçant un fichage éthnique illégal en France. La même année, on apprend que l’outil suggérerait rapidement des termes discriminants, racistes ou insultants pour des personnalités, mais aussi pour des expressions comme “les noirs” ou “les juifs”. En 2013, une campagne de l’ONU met en lumière des prédictions homophobes et misogynes généralisées lorsqu’on écrit “Les gays devraient” ou “Les femmes devraient” (Le Monde, Slate, Pink News).
Dans le mĂŞme temps, Google Suggest lisse certaines prĂ©dictions : pour Ă©viter les polĂ©miques, la fonctionnalitĂ© propose des prĂ©dictions moins virulentes que d’autres moteurs de recherche. C’est notamment le cas lorsqu’on recherche “Joe Biden is” ou “Donald Trump is”, dont les prĂ©dictions relèvent plus de l’information que du jugement (L’ADN).
Le Wall Street Journal dévoile aussi que Google a recours à des “listes noires” de sites à ne pas remonter en première page, voire à ne pas montrer du tout. On apprend également que sur le moteur de recherche Google, les plus grandes entreprises (comme eBay, Facebook, Amazon) sont favorisées par rapport aux plus petites, en apparaissant plus souvent en premières dans les résultats (01Net).
🏳️ Une neutralité impossible à atteindre ? C’est là tout le débat.
Pour Guillaume Sire, maître de conférences à l’Institut français de presse, “la neutralité n’existe pas pour les moteurs de recherche”. Il compare un moteur de recherche à un titre de presse : de la même manière que les journalistes qui doivent faire des choix éditoriaux, l’algorithme de Google traite l’information selon les paramètres choisis par les ingénieurs. Tout dépend du point de vue que l’on adopte : considère-t-on Google comme un relais passif d’information ou bien comme un éditeur actif ? Dans le second cas, la partialité est de mise, pour le meilleur comme, parfois, pour le pire.
Selon Guillaume Sire, cinq controverses autour du traitement de l’information par Google demeureront sans réponse consensuelle, mais méritent d’être débattues : la neutralité éditoriale de l’algorithme, l’intervention humaine dans cet algorithme, sa transparence, le favoritisme pour certains services et la personnalisation des résultats. Les connaître, c’est aussi utiliser l’outil avec une pensée critique (INA, Cairn, The Verge).
Dominique Cardon, sociologue spécialisé dans les questions autour du numérique, préfère parler d’une nécessaire “loyauté” des plateformes, plutôt que d’une promesse de neutralité de leur part. Loyauté qui passe par une réelle transparence dans la présentation du fonctionnement des algorithmes aux utilisateurs (Cairn).
🚫 Google et le conflit d’intérêt
Revenons-en à Google. Depuis son lancement en 1998, l’entreprise est devenue bien plus qu’un moteur de recherche. Déjà experte dans la curation en ligne, elle a étendu ses compétences dans d’autres domaines : la cartographie (Google Maps), le mail (Gmail), la culture (Google Livre, Google Play, YouTube) le commerce (Google Shopping), les réseaux sociaux (Google+) et des outils collaboratifs (Google Drive, Google Agenda, Google Meets, Google Workspace, Google Chat) (Wikipédia). À partir de là , difficile de prôner la neutralité dans le choix des contenus remontés. Google possédant le monopole de la recherche en ligne, son algorithme fait automatiquement remonter ses services en haut des pages de requêtes, ce qui lui a déjà valu plusieurs sanctions.
Dès 2017, la Commission européenne amende Google à hauteur de 2,4 milliards d’euros, pour avoir favorisé son service Google Shopping et rétrogradé les sites concurrents. La pratique est jugée anticoncurrentielle. Un an plus tard, l’institution revient à la charge avec une amende record de 4,34 milliards d’euros pour Google et Android, le premier se servant du second pour renforcer la position dominante de son moteur de recherche. Enfin, en 2019, Bruxelles inflige une troisième amende à Google, de 1,49 milliards d’euros, une nouvelle fois pour abus de position dominante, à travers cette fois sa régie publicitaire AdSense (Challenges, Capital, Les Echos).
La même année, l’Autorité de la concurrence (organisme national indépendant surveillant le marché français) sanctionne à son tour Google d’une amende de 150 millions d’euros pour “abus de position dominante” : les règles de son service publicitaire Google Ads, sont “opaques et difficilement compréhensibles” et s’appliquent de manière “inéquitable et aléatoire” aux annonceurs, qui peuvent être exclus de la plateforme. Puis en juin 2021, elle sanctionne de nouveau la firme américaine pour avoir favorisé ses services et particulièrement DFP (le serveur publicitaire) et AdX (qui organise la vente des espaces publicitaires en temps réel), pénalisant les éditeurs de sites et d’applications mobiles (Le Monde, NextInpact).
🌍 Plusieurs Google ?
En juillet 2021, Rodrigo Ochigame et Katherine Ye, respectivement chercheurs et chercheuses au MIT et à la Carnegie Mellon University de Pittsburgh, développent l’outil Search Atlas (pas encore disponible pour le grand public). Leur constat : selon la zone géographique dans laquelle l’utilisateur se trouve et selon la langue de la recherche, les résultats affichés par Google sont totalement différents, ce qui façonne des “frontières de l’information”. Search Atlas invite à dépasser ces frontières virtuelles, en permettant à l’utilisateur de faire des recherches à travers différentes langues et pays et de les comparer. Par exemple, si tu cherches “avortement” sur Google en France, Google en Albanie et Google en Pologne, seuls les deux premiers vont te fournir des informations pertinentes sur l’avortement. En Pologne, Google n’affiche que les résultats traitant de fausses couches (le gouvernement polonais est ouvertement anti-avortement) (Numerama, Le Monde).
Bon à savoir : Google et la question de l’avortement, c’est une longue histoire. En 2014, le moteur de recherche était vivement critiqué pour laisser se diffuser des publicités pour des centres anti-avortement. Deux ans plus tard, c’est l’algorithme de curation de Google qui est pointé du doigt, pour mettre en avant un site et un numéro vert hostile à l’IVG. Enfin, en 2019, The Guardian révèle que Google avait offert 150 000 dollars de publicité gratuite pour le groupe anti-avortement Obria (The Washington Post, Le Monde, The Guardian). Même en France, des luttes ont lieu à répétition pour éviter que des sites d’apparence sérieuse mais pilotés par des groupuscules anti-avortements se retrouvent au-dessus des informations certifiées du gouvernement ou du Planning Familial (en 2013, Le Parisien, en 2016, Journal des Femmes).
L’avortement n’est qu’un exemple des multiples sujets sur lesquels se livrent des formes de luttes numĂ©riques – les vaccins, certaines thĂ©ories du complot, des dĂ©bats politiques de toutes sortes suscitent les mĂŞme tentatives de manipulation des rĂ©sultats de recherche. Pour la prĂ©sidentielle 2022, rapporte France Info, la guĂ©rilla est largement ouverte.
→ Si tu veux approfondir tes rĂ©flexions sur ce sujet, je te (re)conseille le livre de Dominique Cardon, Culture NumĂ©rique. Tu peux aussi feuilleter les Ă©tudes du CSAlab, Le rĂ´le des donnĂ©es et des algorithmes dans l’accès aux contenus et de l’Institut Montaigne Algorithmes : contrĂ´le des biais SVP.Â
[Modifications 14.03.2022 : ajout du terme « index » dans le deuxième paragraphe de la partie Comment Google fonctionne-t-il vraiment ? sur recommandation de l’internaute JM Brodu]
Pour compléter ou corriger cette série d’articles et apporter vos sources, 📝 rendez-vous sur sa version participative ou venez 💬 en discuter avec nous sur Discord.