14-01

Flint Production

Par

Thibault

Twitter

Comment fonctionne la pyramide des preuves en médecine… et quels sont ses pièges ?

Dans sa mission pour t’aider à découvrir de nouvelles sources d’information et de nouvelles voix, Flint a décidé de donner la parole à des experts, dans leur domaine respectif : environnement, technologie, histoire, sociologie. Ces articles sont une mise en page de threads, des séries de tweets publiés sur Twitter. Nous avons sélectionné ces textes pour l’éclairage précis et parfois méconnu qu’ils apportent sur des problématiques d’actualité.

💡 Pourquoi lire cette analyse ? Exemples à l’appui, ce fil permet d’aborder le processus scientifique d’estimation des preuves en place en médecine et de comprendre où peuvent se loger certains biais. Utile pour relire certains des débats qui ont agité (agitent encore ?) la sphère publique depuis le début de la pandémie de Covid-19.

✍️ L’auteur : Thibault est informaticien, diplômé de Polytechnique et de l’ETH Zürich, où il est actuellement doctorant. Il s’est mis à twitter après les premières les premières déclarations et études de Didier Raoult sur l’hydroxychloroquine et s’est rendu compte que plusieurs de ses lecteurs ne comprenaient pas en quoi un essai contrôlé randomisé était mieux, sur le plan méthodologique, qu’une étude observationnelle. C’est la raison pour laquelle il s’est lancé dans l’explication que vous allez lire aujourd’hui.

Retrouvez ce fil sur Twitter au bout de ce lien ou découvrez-le ci-dessous sous forme d’article.

Le fil :

Aujourd’hui, je vous propose une introduction à la pyramide des preuves en médecine. Ce qu’on va étudier dans ce thread :
👉 Les biais potentiels à chaque étage : indication, publication, évaluation, temps immortel…
👉 Pourquoi l’essai contrôlé randomisé double aveugle est-il le gold standard de l’essai clinique ?
👉 La place des méta-analyses

Disclaimer : je suis chercheur (mais pas en médecine) et ce thread est une introduction à la pyramide des preuves, donc incomplet. Je ne décris pas ici tous les types d’essais cliniques, ni tous les biais possibles. Je ne parle pas non plus d’études théoriques, in vitro, animales… L’image choisie pour illustrer n’est pas de moi mais de Travis Whitfill – oubliez donc la flèche qui pointe vers la droite, l’important pour notre réflexion est la pyramide elle-même.

C’est parti.

Niveau -1 : L’opinion de l’oncle qui a une amie qui a vu une vidéo YouTube qui explique que ça marche. Pas besoin d’explications ici.

Niveau 0 : Les opinions d’experts. Même dans les domaines avec consensus, vous trouverez toujours un expert qui raconte n’importe quoi, pour différentes raisons (par exemple médiatique). Il existe aussi un phénomène intéressant : l’ultracrépidarianisme. L’ultracrépidarianisme, c’est le fait de croire qu’être compétent dans un domaine rend compétent dans un domaine différent. C’est souvent couplé à un argument d’autorité. Exemple : « Je suis compétent en économie donc je suis compétent en politique ».

La maladie du Nobel est un cas particulier d’ultracrépidarianisme. Après avoir reçu un prix Nobel, il est facile de s’imaginer avoir raison sur tout. Luc Montagnier en est une excellente illustration, avec sa théorie sur la « mémoire de l’eau » (lire cet article de blog du Monde, ndlr).

Niveau 1 : Les études de cas. Elles peuvent porter sur un seul cas ou sur une série de cas.

👉 Un seul cas : ça peut être intéressant pour comprendre certains mécanismes d’une maladie, mais ça ne prouve pas grand-chose. Jair Bolsonaro a par exemple pris de l’hydroxychloroquine et a été guéri en 20 jours environ (le Parisien) –> On ne peut absolument rien en conclure.

👉 Série de cas : on a entendu certains médecins dirent des choses comme « j’ai traité 200 cas COVID+ avec XYZ, aucun mort ! » Sans comparaison, cela ne prouve rien : quelle était la probabilité qu’un patient meurt avec XYZ ? Cela dépend de la population traitée.

L’IFR (le taux de létalité, ndlr) de la COVID-19 est estimé à 0,5% : environ une personne infectée sur 200 en meurt. Sous cette hypothèse (+ variables indépendantes et indistinctement distribuées), il y a environ 37% de chance d’avoir une série de 200 cas COVID+ sans aucun mort, c’est loin d’être improbable. Pour un meilleur résultat, il faut comparer avec un groupe contrôle !

On vous remet la pyramide, pour que vous visualisiez bien

Niveau 2 : Les études observationnelles.

👉 Les chercheurs sont passifs et n’agissent pas (ou n’ont pas agi) sur le déroulement de l’étude.
👉 Principe pour un traitement : pn sépare en groupes traités vs. non traités puis on compare les résultats (infections, morts…)

Une étude observationnelle est rétrospective (les données sont collectées après) ou prospective (dès le début), et il en existe trois grands types (cas-témoins, cohorte, transversale).
Exemples :
👉 Étude rétractée du Lancet
👉 Étude de l’institut Henry Ford de Détroit

Ces études sont très propices à certains biais, par exemple :
👉 Le biais d’indication : le traitement est expérimental et donné à des patients à risques élevés
👉 Le biais de contre-indication : le traitement est dangereux, il est donné à des patients en meilleure santé (exemple : Henry Ford, Didier Raoult…)

Beaucoup d’autres biais sont possibles, par exemple dans la constitution des groupes. Le biais du temps immortel, par exemple, est présent dans la première étude de Christian Perronne et dans les dernières études de Didier Raoult.

Le biais du temps immortel, c’est quand on impose une durée minimale (2-3 jours) pour compter le traitement. C’était le cas dans l’étude de Didier Raoult sur 3737 patients.
👉 Groupe traitement : on donne de l’hydroxychloroquine et de l’azithromycine puis on observe les effets à partir d’une durée supérieure ou égal à 3 jours après l’administration du traitement.
👉 Groupe « contrôle » : on donne d’autres traitements et on observe les effets dès la première heure.

Cela donne un avantage énorme pour le traitement testé : aucun patient traité ne détériore (meurt, part en réanimation, etc) dans les premiers jours, alors qu’il y sont potentiellement nombreux dans le groupe « contrôle ». Ce biais n’est pas redressable statistiquement.

Enfin, les études observationnelles trouvent des corrélations, mais ne sont pas en mesure de prouver des causalités. Une étude observationnelle pourrait découvrir que plus les gens mangent de glaces, plus les gens se noient. Explication ? Il fait chaud. (Allez faire un tour sur ce site anglophone ou cet article du Monde pour trouver d’autres corrélations douteuses, ndlr)

Niveau 3 : Études non-randomisées
C’est une étude dans laquelle les chercheurs attribuent (de façon non-aléatoire) le traitement. C’était le cas de la première étude de Didier Raoult, qui a « conclu » a l’efficacité du traitement hydroxychloroquine + azithromycine, testé sur six patients.

Ces études peuvent souffrir des mêmes biais que les études observationnelles :
👉 Indication : patients à risque élevé traités
👉 Contre-indication : Ppatients à risque faible traités
👉 Temps immortel

Beaucoup de biais peuvent être évités si l’on prend deux groupes comparables et qu’on compare les résultats du premier aux réactions du groupe contrôle !

Niveau 4 : Les essais contrôlés randomisées (ECR, en anglais RCT : Randomized Controlled Trial)

Le principe des essais randomisés, c’est d’attribuer un traitement à chaque patient de façon aléatoire, pour obtenir des groupes comparables. Dans une étude non-randomisée, il peut y avoir une multitude de raisons de pourquoi un individu est traité et pas un autre : le traitement est disponible dans un pays mais pas dans un autre, le traitement choisi par un certain type d’individus, etc. Cela biaise la comparaison.

Dans un essai randomisé, les différences entre les deux groupes sont négligeables. Cependant, il faut un nombre suffisant de patients pour obtenir cet effet. Un ECR avec seulement quelques dizaines de patients est loin d’être une garantie d’avoir des groupes comparables.

Un ECR dans lequel le patient sait s’il reçoit le traitement ou non est dit ouvert (open-label). Dans un essai ouvert, différents biais sont encore possibles, par exemple :
👉 L’effet placebo
👉 Le biais de suivi et d’évaluation

L’effet placebo est très complexe et agit à différents niveaux :
👉 Le patient croit en l’efficacité du traitement : savoir qu’il a le traitement va améliorer sa guérison.
👉 Le médecin croit en l’efficacité : son attitude vis-à-vis du patient peut influer sur l’état de ce dernier.

Le biais de suivi et d’évaluation consiste en une différence de suivi ou d’évaluation des patients selon leur groupe, ce qui peut fausser les résultats. Un patient peut par exemple sous-estimer (ou sur-estimer) ses symptômes selon son groupe. Pour réduire ces biais, l’essai peut être :
👉 En simple aveugle (single-blind) : le patient ne sait pas s’il reçoit le traitement ou un placebo (forme similaire au traitement, mais sans effet).
👉 En double aveugle (double-blind) : le médecin non plus ne sait pas quel groupe est testé, quel groupe sert au contrôle.

L’essai randomisé contrôlé en double aveugle est considéré comme l’essai clinique gold standard, car il laisse très peu de place aux biais. On peut même faire un essai « triple aveugle » : le chercheur qui analyse les données ne sait pas quel groupe a reçu le traitement.

Niveau 5 : La méta-analyse

Si l’ECR est le gold standard, pourquoi a-t-on besoin de méta-analyse ?
👉 Pour une question de représentativité des groupes : un ECR n’est valide que sur une population similaire à celle traitée.
👉 À cause du hasard : pour ça, il faut comprendre ce que mesure la p-value.

Une différence de résultat (par exemple le nombre de morts) entre deux groupes comparables peut être due au hasard. Pour savoir si c’est le cas, on fait un calcul : on suppose que le traitement n’a pas d’effet et on calcule la probabilité d’avoir ces résultats ou pire.

Exemple (simplifié) : vous voulez savoir si un dé est truqué pour tomber sur le 6
👉 Vous lancez le dé 2 fois de suite, et obtenez 6 deux fois
👉 Si le dé n’était pas truqué, vous auriez eu 1 chance sur 36 d’obtenir deux fois 6
👉 La p-value ici est donc 1/36 ~ p = 0.028

Pour un essai clinique, on considère le résultat « statistiquement significatif » si p < 0.05, c’est-à-dire si la probabilité d’avoir ces résultats alors que le traitement ne fonctionne pas est inférieure à 5%. Problème : dans environ un cas sur vingt, même si le traitement est inefficace, on aura p < 0.05.

De plus, il existe un biais de publication : il est beaucoup plus facile de publier une étude qui montre qu’un traitement est efficace, qu’une étude qui montre une inefficacité (à ce titre, l’HCQ pour la COVID-19 est une exception).

À cause du hasard, un ECR seul ne dit pas toute la vérité. Une méta-analyse permet de prendre cela en compte. Une méta-analyse correcte doit, en plus, évaluer les biais de chaque étude qu’elle prend en compte, pour comparer les niveaux de preuve.

Génération IA - La newsletter pédagogique de Flint sur l'IA