Concept généralement peu connu en-dehors des milieux de la recherche scientifique jusqu’au printemps 2020, l’essai contrôlé randomisé est désormais familier du grand public : tout le monde a entendu dire que c’était le « gold standard » en matière de recherche médicale, que c’était la seule façon d’obtenir une preuve de l’efficacité d’un traitement, et un passage obligé avant son autorisation.

On rappellera succinctement en quoi consiste un essai contrôlé randomisé et ses qualités, avant d’examiner différentes faiblesses que cette méthode recèle malgré tout, à la fois intrinsèquement et dans les risques de mauvaise interprétation des résultats obtenus.

Qu’est-ce qu’un ECR ?

Un essai contrôlé randomisé (ECR, ou encore RCT, acronyme de l’anglais randomized controlled trial) est un essai, c’est-à-dire une méthode d’évaluation de l’effet (positif ou négatif) d’un traitement. (Cette méthode peut être utilisée en médecine, mais aussi en économie, en agriculture etc.)

Un ECR est une étude expérimentale, c’est à dire que les chercheurs organisent une expérience, au cours de laquelle des participants volontaires sont soumis à un traitement, afin d’en évaluer les effets.

Un ECR est un essai contrôlé : l’influence du traitement est estimée en constituant un groupe contrôle, qui n’est pas traité. C’est donc un essai comparatif : l’évolution des deux groupes sera mesurée et comparée, et si les deux groupes évoluent différemment, on pourra dans certains cas en conclure que c’est le traitement qui est responsable de la différence. Les calculs statistiques jouent là un rôle important. De plus, l’équipe de recherche organise l’essai, de façon à maîtriser divers paramètres en les contrôlant : l’âge des patients, leur état de santé avant l’essai, les doses administrées, etc. Cela permet notamment d’éviter que certains déséquilibres entre les caractéristiques des membres des deux groupes viennent influencer les résultats et « parasiter » l’influence du traitement.

Un ECR est un essai randomisé, ce qui signifie que la décision de placer un participant dans le groupe traité ou dans le groupe non traité fait appel au hasard. Cela vise à éviter un biais de sélection : le risque que, consciemment ou non, les chercheurs favorisent le résultat espéré, par exemple en plaçant les « meilleurs participants » (ceux dont les caractéristiques laissent penser qu’ils évolueront favorablement) dans le groupe qu’on espère voir évoluer plus positivement que l’autre.

Dans le but d’éliminer des biais liés à l’effet placebo, certains ECR sont mené en aveugle, voire en double aveugle.
En aveugle, jusqu’à la fin de l’essai, les participants ne savent pas s’ils sont dans le groupe traité ou dans le groupe contrôle : plutôt que de ne rien donner aux participants du groupe contrôle (ce qui les informerait qu’ils sont dans le groupe non traité), on leur donne un « placebo », c’est à dire un traitement factice, sans effet sur l’organisme, mais qui ressemble au traitement testé. Cela évite que les participants traités, sachant qu’ils reçoivent le médicament réel, ne voient leur état s’améliorer du simple fait de l’effet placebo, tandis que ceux qui se sauraient non traités ne bénéficierait pas de cet effet placebo. (L’effet placebo peut s’expliquer par de l’auto-suggestion, ou par une réduction du stress, lui-même pesant sur le système immunitaire.)

En double aveugle, les participants ne savent pas dans quel groupe ils sont, mais les chercheurs en contact avec les participants ne savent pas non plus quels participants reçoivent un placebo et lesquels reçoivent le traitement testé. Cela permet d’éviter une activation de l’effet placebo par des « gaffes » ou par des attitudes involontaires des chercheurs, révélant — plus ou moins consciemment — aux participants à quel groupe ils appartiennent. Et cela évite aussi l’influence (consciente ou non) de la subjectivité des chercheurs lorsqu’ils doivent interpréter des informations provenant des participants.

Si un essai contrôlé randomisé n’est mené ni en double aveugle ni même en simple aveugle, on parle d’essai ouvert (ou « open-label », c’est-à-dire « avec les étiquettes des médicaments apparentes ».)

Remarquons ici que l’effet placebo est réputé n’avoir qu’une impact limité, et qu’il ne peut donc brouiller l’interprétation d’un essai que si le traitement testé n’a lui-même pas une ample efficacité. Donc si, à la suite d’un essai ouvert, les différences entre groupe traité et groupe contrôle dépassent un certain niveau, le reproche de n’avoir pas été mené en aveugle ou en double aveugle ne pourra pas lui être opposé.

Une autre remarque : si l’effet placebo peut être l’ennemi des chercheurs, en raison de sa capacité à brouiller les résultats d’un essai, il n’est en revanche absolument pas l’ennemi des médecins ni des patients ! C’est au contraire un allié, qui permet de renforcer les chances de guérison. Et dans certains cas, l’effet placebo peut à lui seul permettre à un patient de surmonter un trouble.
De ce fait, un argument parfois entendu, selon lequel il ne faudrait pas donner un traitement « parce qu’on n’est pas certain que ce ne soit pas qu’un placebo » n’est pas un argument médicalement valable : l’effet placebo peut favoriser la rémission, et ne serait-ce que pour cela, dans certains cas il vaut mieux donner un traitement à l’efficacité incertaine que pas de traitement du tout. Inversement, le stress généré par une réponse médicale telle que « il n’y a rien à faire, il n’existe aucun traitement, il faut attendre et voir si on s’en sort » est un probable facteur de stress, susceptible d’affaiblir les défenses immunitaires et d’aggraver l’état de santé.

Comment conclut-on à l’efficacité d’un traitement testé par un ECR ?

Le but d’un essai est de calculer la différence d’évolution entre le groupe testé et le groupe contrôle, et de calculer également, grâce au domaine des mathématiques que sont les statistiques, la probabilité que la différence observée entre les deux groupes soit due au traitement plutôt qu’au hasard.

Le premier calcul (la différence d’évolution entre les groupes) peut être fait de diverses façons, selon ce que les chercheurs ont prévu de mesurer. On appelle « outcome » (issues) les critères que les chercheurs ont choisi d’observer et de mesurer. Un outcome est censé dépendre de l’effet du traitement, et c’est pour cette raison que les chercheurs le choisissent. Par exemple, on peut compter dans chaque groupe le nombre de participants à qui il arrive un événement spécifique au cours de l’essai (disparition d’un symptôme, décès, hospitalisation, ou tout autre événement choisi comme outcome.) Autre exemple : on peut mesurer une donnée biologique (telle que la tension artérielle, la charge virale ou toute autre grandeur mesurable sur chacun des participants) ou encore le temps écoulé entre deux événements (entre la prise du traitement et la guérison, par exemple) et comparer alors la moyenne obtenue dans chaque groupe.

Ce premier calcul permet de donner une estimation chiffrée de la différence d’évolution entre le groupe testé et le groupe contrôle. On parle souvent de « Risque Relatif » (ou « Risk Ratio » ou RR) : cet indicateur de l’efficacité peut être calculé en divisant la proportion de participants ayant connu un événement dans le groupe traité, par la proportion de participants ayant connu le même événement dans le groupe contrôle. Ainsi, si le RR vaut 1, c’est que la proportion de participants rencontrant l’événement observé est la même dans les deux groupes : c’est donc qu’on n’a pas observé d’effet du traitement sur l’outcome en question. Mais si RR=0,2 cela signifie que dans le groupe traité les participants ont connu 5 fois moins souvent l’événement que dans le groupe contrôle : cela peut laisser penser que le traitement a un effet important. (On n’entrera pas ici dans les explications d’autres indicateurs, tels que l’« Odds Ratio » (OR) ou le « Hazard Ratio » (HR), qui sont parfois utilisés, et dont le principe général est le même que pour le RR.)

Le deuxième calcul fait appel à des notions plus poussées de statistiques — qu’on ne cherchera pas à préciser ici mais qu’on a commencé à illustrer — et vise à savoir si, dans l’hypothèse où le traitement serait absolument inutile, le simple hasard aurait pu conduire à la même différence entre les deux groupes. Le résultat de ce calcul ne se présente pas sous la forme d’une réponse « oui » ou « non », mais peut se présenter essentiellement sous deux formes : la p-value, qui est un nombre, ou l’ intervalle de confiance à 95 %, qui est caractérisé par deux nombres.

Ces deux façons de présenter le résultat sont différentes mais elles disent à peu près la même chose. Voici une brève explication :

– la p-value (notée p) est la probabilité que le simple hasard conduise à une différence aussi grande que celle qu’on a observé entre les deux groupes. C’est un nombre compris entre zéro et 1. Si on a calculé que p=1, cela veut dire que le hasard avait toutes chances de mener à une différence aussi grande ; si on a p=0,5 cela signifie qu’avec un traitement sans effet, on avait une chance sur deux d’arriver à une aussi grande différence ; si on a p=0,01 cela signifie qu’on n’avait qu’une chance sur 100 que le hasard aboutisse à une différence aussi forte que celle qu’on a observée entre les deux groupes. Et si on avait p=0 (ce qui en fait n’est pas un résultat possible), cela voudrait dire qu’en aucun cas le hasard n’aurait pu donner une telle différence entre les groupes.

De façon parfaitement conventionnelle, dans les sciences humaines il est admis que la valeur en-dessous de laquelle on considère que la différence n’est pas due au hasard mais qu’elle est bien due au traitement est 0,05. C’est à dire que si le hasard avait moins de 5 % de chances d’aboutir à la différence observée entre les groupes, on considère qu’on est sûr que c’est le traitement qui est responsable de la différence. Dit autrement : si p=0,05 alors on a 5 % de chances de se tromper si on dit que le traitement est efficace, mais on considère qu’à 5 % de risque (ou moins) de se tromper, on est sûr qu’on ne se trompe pas. C’est une convention, redisons-le, mais c’est là-dessus que sont construites les « preuves » de la Médecine Fondée sur les Preuves (ou EBM) : « si on a moins de 5 % de chances de se tromper, on peut dire que c’est prouvé. » Voilà pourquoi, lorsqu’un chercheur mène une étude, il espère obtenir un p inférieur à 0,05 : cela signifie que son résultat est considéré comme probant aux yeux de la communauté scientifique.

– L’intervalle de confiance revient à peu près au même que la p-value, sous une forme légèrement moins abstraite. On a vu ci-dessus la notion de Risque Relatif, qui mesure l’efficacité apparente du traitement au cours de l’essai. Mais ce RR, que l’on a calculé à partir d’un essai, ne peut pas être interprété comme « l’exacte efficacité du traitement testé ». En effet, on aurait peut-être pu tomber sur ce même résultat par hasard, avec un traitement un peu plus ou un peu moins efficace, voire même avec un traitement inefficace. Les statistiques permettent de calculer l’intervalle de confiance à 95 %, c’est-à-dire deux nombres entre lesquels on est « sûr à 95 % » que le RR dû au traitement se trouve. Si cet intervalle contient le 1, c’est à dire le nombre correspondant à une pure inefficacité du traitement, on considère que le hasard a pu être seul responsable de l’efficacité apparemment observée au cours de l’essai. Si le 1 ne fait pas partie de l’intervalle de confiance à 95 %, alors on affirme que le traitement est efficace. (On a toujours 5 % de chances de se tromper, c’est-à-dire 5 % de chances que le vrai RR du traitement soit en-dehors de l’intervalle de confiance à 95 % qu’on a calculé. Et, comme précédemment avec p=0,05, 5 % de chances de se tromper, c’est considéré comme suffisamment faible pour affirmer une efficacité : c’est en fait la même convention, qui prend deux expressions mathématiques différentes : soit la p-value, soit l’intervalle de confiance à95 %.)

Remarque : dans cette convention, on dit qu’un essai est statistiquement significatif si sa p-value p est inférieure à 0,05, ou si son intervalle de confiance à 95 % ne contient pas le 1. Dire qu’un essai est statistiquement significatif revient à dire (sous réserve de défauts, de biais ou d’erreurs commis lors de l’essai ou dans les calculs) que cet essai apporte ce qu’il est convenu de considérer comme la « preuve » de l’effet d’un traitement.

Limites des ECR

On vient de le voir, l’essai contrôlé randomisé, avec ou sans ses différentes options (aveugle, double-aveugle…), est une méthode assez sophistiquée visant à écarter certains biais pour déterminer si un traitement produit un effet, à estimer l’ampleur de cet effet et à estimer les chances de se tromper.

Mais les ECR ont de nombreuses limites, et ne peuvent pas tout.

Un élément essentiel, qui génère de nombreuses limites, est que l’analyse des résultats repose sur des mesures, et sur les analyses statistiques de ces mesures.

– Faire des calculs suppose en effet de transformer en mesures, c’est à dire en quelques chiffres l’expérience vécue par les personnes ayant participé à l’essai, ce qui est inévitablement réducteur, et ne permet pas de tenir compte de l’ensemble des ressentis ni de toutes les dimensions de cette expérience.

– Un ECR ne mesure que ce qu’il mesure, et il peut passer à côté d’aspects qui n’avaient pas été prévus, et qui n’ont donc pas été mesurés.

– Un ECR ne teste un traitement que sur un nombre limité de participants. Qu’il y en ait quelques dizaines ou quelques dizaines de milliers, les participants ne pourront jamais représenter fidèlement la population réelle, avec son infinie variété de caractéristiques, ni les réactions nécessairement individuelles à un traitement donné.

– Un ECR ne permet pas d’affiner le dosage d’un médicament : tous les participants du groupe traité doivent en effet recevoir le même traitement. Or bien souvent, l’efficacité dépend de la dose, de l’espacement entre les prises, de la durée du traitement etc. Par conséquent, un ECR mené avec un dosage particulier et une durée de traitement particulière, ne permet pas de connaître l’efficacité d’un autre dosage et d’une autre durée. Et pour cette raison, un ECR au cours duquel on n’observe aucune différence entre le groupe traité et le groupe contrôle permet éventuellement de conclure « à telle dose, tel traitement n’a apparemment pas d’effet », mais il ne permet pas de conclure à l’inutilité du médicament testé : d’autres posologies peuvent s’avérer efficaces.

Pour affiner le dosage, on ne peut pas raisonnablement envisager de conduire des dizaines d’ECR sur un même médicament avec des doses et des durées différentes. D’autres méthodes de recherche sont alors nécessaires, telles que l’observation clinique, par exemple.

– cette remarque est évidemment plus pertinente encore dans le cas de polythérapies, avec des effets d’interactions ou des synergies entre médicaments. Si les doses de chaque médicament peuvent être individuellement ajustées, les ECR ne permettent pas de déterminer quels dosages de chacun des médicaments permettent une efficacité du traitement combiné. L’efficacité des trithérapies contre le VIH, par exemple, n’a pas été établie par des ECR.

Les limites décrites ci-dessus sont intrinsèques aux ECR : quelle que soit la conception d’un essai, on ne peut pas s’en affranchir.

Mais plusieurs limites sont liées à la conception d’un essai, et peuvent donc éventuellement être surmontées, du moins en partie.

– Le nombre de participants d’un essai peut être décisif pour aboutir ou non à un résultat statistiquement significatif. Un essai sous-dimensionné restera non significatif, même avec un traitement fortement efficace.

– Le choix des outcomes mesurés est important : un outcome correspondant à un événement intervenant rarement (ex : le décès, pour une maladie peu létale) risquera de conduire à un résultat statistiquement non significatif, sauf à avoir enrôlé un nombre très élevé de participants. En effet, les lois mathématiques sur lesquelles reposent les calculs statistiques stipulent que c’est le nombre des événements décomptés, et pas seulement le nombre de participants, qui permet d’atteindre à une significativité statistique.

– Si plutôt que de décompter des événements, on mesure une grandeur (biologique ou autre) chez chaque participant, on fait généralement la moyenne de cette grandeur dans chaque groupe, pour comparer les deux moyennes entre elles. Ce qui pose quelques limites aussi. Par exemple, une même moyenne peut dissimuler des réalités différentes. Mais aussi, si seule une petite partie des participants réagit au traitement, même si elle y réagit fortement, les moyennes pourront sembler très peu différentes. Ainsi, il est important de s’assurer que les participants sont bien concernés par un potentiel effet du traitement.

Pour illustrer, imaginons qu’on fasse un essai pour savoir si l’aspirine réduit le mal de tête, en demandant aux participants d’indiquer leur degré de mal au crâne sur une échelle de 0 à 10 avant la prise d’un comprimé puis 2 heures après, pour mesurer la réduction du mal de crâne déclaré par chaque participant, afin de comparer la moyenne de cette réduction pour le groupe traité et la moyenne du groupe contrôle ; mais imaginons qu’on fasse l’essai sur deux groupes de 100 personnes dans lesquels seules deux ou trois personnes ont mal à la tête : la douleur passera de zéro avant le comprimé à zéro après le comprimé pour la quasi totalité des participants, les deux moyennes seront donc très faibles, et on n’observera à peu près aucune différence de réduction moyenne entre le groupe traité et le groupe contrôle. La conclusion d’un tel essai serait que l’aspirine ne réduit pas le mal de crâne… Il est donc important que les participants d’un ECR soient concernés par le traitement : dit autrement, il faut que ce soit des personnes atteintes par la maladie pour laquelle on teste un traitement, ou, selon ce qu’on mesure, des personnes à risque. Sinon, il est probable qu’on n’observera peu de différence entre les deux groupes, et on pourra passer à côté d’un effet réel sur les personnes concernées, que l’essai ne permettra de détecter.

Mauvaise interprétation des résultats

On a identifié une partie des limites des ECR, mais une limite importante vient… d’un manque de culture mathématique.

Le fait qu’un essai n’apporte pas un résultat statistiquement significatif ne veut pas forcément dire que le traitement est sans effet. C’est pourtant une erreur extrêmement courante, commise tant par les chercheurs que par les médias qui commentent la recherche scientifique. Cette erreur est analysée et dénoncée par les auteurs de ce texte, signé par plus de 800 scientifiques et publié par la revue Nature en mars 2019 sous le titre « Des scientifiques s’élèvent contre la signification statistique ».

La seule conclusion que permet de tirer un résultat statistiquement non significatif est « cet essai ne permet pas de conclure avec certitude ». Penser qu’un résultat statistiquement non significatif équivaut à une preuve d’inefficacité est donc une erreur fondamentale, qui est à la base de la plupart des mauvaises interprétations de résultats, dont nous allons voir quelques exemples dans un prochain article.

Si un essai a un résultat statistiquement non significatif, certes cela peut être dû à une efficacité faible ou nulle du traitement testé. Mais cela peut être dû par exemple à un essai sous-dimensionné (pas assez de participants), ou à un des participants trop peu « à risque », ou à un outcome trop rare… Dans tous ces cas, même un traitement efficace peut donner lieu à des résultats proches dans le groupe traité et dans le groupe contrôle, empêchant les résultats de l’essai d’être statistiquement significatifs.

En fait, une limite des essais, assez peu facile à comprendre intuitivement, est que, si un ECR peut apporter une « preuve » de l’efficacité d’un traitement, il ne peut en revanche jamais apporter la preuve de son inefficacité. Cela tient aux statistiques, et à une limite pratique : on ne peut pas inclure un nombre infini de participants dans un essai ; or une efficacité faible mais réelle ne peut s’observer que s’il y a suffisamment de participants enrôlés dans l’essai. Ainsi, un essai qui n’observe pas de différence notable entre les deux groupes (inefficacité apparente du traitement), aurait peut-être observé une différence s’il y avait eu 10 fois plus — ou 100 fois plus — de participants enrôlés dans l’essai.

Autres critiques envers les ECR

La mise en place d’un ECR demande une logistique complexe, qui rend ce type d’essais cher et long à mettre en œuvre.

Or, la sophistication d’un ECR (randomisation, mise en aveugle ou en double aveugle…) vise à supprimer certains biais. Mais dans certains cas, ces biais peuvent être circonscrits par des moyens plus simples. Ainsi, les études observationnelles bien menées (avec appariements, par exemple) donnent des résultats aussi fiables que les ECR.

Une étude observationnelle ne consiste pas en une simple observation de ce qui se passe, mais consiste, comme un ECR, à comparer un groupe traité et un groupe non traité. Simplement, la constitution de ces groupes, au lieu d’être faite par avance par les chercheurs pour conduire une expérience en assignant des places aux patients, comme c’est le cas dans un ECR, est faite a posteriori : on interroge le passé de patients, et on regroupe ceux qui ont reçu un traitement et ceux qui ne l’ont pas reçu, pour comparer la façon dont ils ont évolué : on ne fait pas une expérience, on étudie le passé et ses conséquences déjà observables. On contrôle donc moins les paramètres a priori, mais on peut compenser cette absence de contrôle par une rigueur dans la reconstitution des groupes. Ainsi, l’appariement est une méthode statistique visant à sélectionner les dossiers de patients pour reconstituer des groupes semblables dans leurs caractéristiques initiales. (Bien entendu, une étude observationnelle sur un traitement n’est possible que pour un traitement existant déjà, et si suffisamment de personnes l’ont pris.)

De plus, les ECR soulèvent des questions éthiques : en soumettant des participants à un traitement expérimental — ou en donnant un placebo à des personnes atteintes d’une maladie — les chercheurs mettent au moins un des groupes de participants en danger.

Par ailleurs, dans certains cas, on peut estimer que les procédures complexes des ECR visant à éliminer les biais soient superflues. Prenons un exemple : imaginons qu’un chercheur donne un traitement expérimental à 3 ou 4 personnes séropositives au VIH, et que la semaine suivante, elles soient toutes séronégatives. Cela ne constitue pas encore une preuve, mais imaginez que ce chercheur publie ce résultat et qu’à leur tour, 2 autres équipes de recherche fassent la même expérience, avec au total une douzaine de patients séropositifs, qui deviennent à leur tour séronégatifs une semaine plus tard. On comprend que dans ce cas, mener un ECR serait superflu : il suffit que l’expérience soit réplicable par d’autres équipes pour constituer une preuve. Pourquoi cela suffit-il ? C’est le contexte qui le permet : on connaît bien l’évolution du VIH, on sait qu’on ne devient pas spontanément séropositif en quelques jours, on sait que l’effet placebo n’a jamais rendu un patient séronégatif etc. Dans cet exemple, même la constitution d’un groupe contrôle est superflue, parce que l’ensemble des millions de patients dont on connaît l’évolution constitue un groupe contrôle « naturel » suffisant.

Dans cet exemple, toutefois, il pourrait être nécessaire de mener un essai pour connaître les effets indésirables du traitement révolutionnaire ainsi découvert. Sauf, sans doute, si ledit traitement n’est qu’un cocktail de produits déjà bien connus et parfaitement inoffensifs en-dehors de contre-indications déjà identifiées…

On le voit, le recours aux essais contrôlés randomisés ne doit pas être un dogme indépassable. Et, comme on le verra bientôt à travers quelques exemples, la crise du Covid-19 a généré un certain nombre d’ECR dont les résultats sont sans doute davantage imputables à la conception de l’essai ou à son interprétation qu’aux effets réels des traitements testés…

Source