Les statistiques : chi-2 nous deux ?

Article Article

Après des mois de galère À chercher un financement, vient le temps des journées interminables du labo, des manips À gogo jusqu’au recueil des données. Ensuite, Notre TABLEAU DE DONNÉES rempli, À nous la rédaction de la publi?! Enfin… pas si vite … restent peut-être quelques statistiques?!

Les statistiques : chi-2 nous deux ?

Vous pouvez répéter la question ?

La clé, c’est d’avoir d’abord résumé sa question de recherche à une comparaison de chiffres. Par exemple, si nous disposons d’une enquête sur les lecteurs de What’s Up Doc, nous pourrions chercher quelles caractéristiques sont associées au statut de chef de clinique ou d’interne. La variable d’intérêt serait une variable qualitative et on pourrait s’intéresser à sa relation avec :

-une autre variable qualitative comme la rubrique préférée. Si 40 % des chefs de clinique préfèrent « Publish or Perish », alors qu’elle est choisie par 10 % des internes, la réponse reviendrait à une comparaison de pourcentages ;

-une variable quantitative, comme l’âge. On comparerait la moyenne d’âge des internes et des chefs de clinique (lire p. 23 « Quel test pour quelle situation ? ») ;

-un lien entre 2 variables quantitatives, comme l’âge moyen des lecteurs et le temps passé à lire, pour savoir s’ils sont corrélés.

Quel test choisir ?

Une fois ces questions écrites, la suite consiste à identifier le test statistique adapté à notre situation. Le site BiostatTGV (http ://marne.u707.jussieu.fr/biostatgv/), rubrique « Choisir le meilleur test », peut être d’une aide inestimable.

Pour les comparaisons de moyennes, il faudra choisir entre les tests « paramétriques » et les « non paramétriques ».

Les premiers (exemple, test de Student), sont basés sur la loi normale et nécessitent que le paramètre étudié suive une loi de Gauss. Les tests « non paramétriques » comme le test de Mann-Whitney n’ont pas ce prérequis et sont souvent utilisés pour cette raison.

Enfin, si la comparaison concerne 2 mesures chez le même individu (exemple, avant-après traitement), il faudra choisir des tests pour « mesures appariées ».

Quel test pour quelle situation ?

Tableau des principaux tests statistiques pour comparer 2 variables :

  Qualitatif (sexe, couleur des yeux) Quantitatif (âge, pression artérielle)
Quantitatif (âge, pression artérielle) Comparaison de moyennes 
Test de student
Test de Mann-Whitney
Comparaison de deux moyenne : Coefficient de corrélation (Pearson ou Spearman)
Qualitatif (sexe, couleur des yeux) Test du Chi-2 (comparaison de pourcentages)  

Alors, significatif ou pas ?

Des solutions gratuites et performantes pour les analyses sont dispos en ligne. Elles reposent sur des moteurs logiciels extrêmement robustes, comme le logiciel R, que nous pouvons citer dans notre publi.

Le site Biostat TGV de l’université Pierre-et-Marie-Curie nous permet de réaliser tous les tests usuels. Pour des jeux de données plus conséquents, on pourra se procurer des logiciels gratuits. En allant faire un tour sur http://statpages.org/javasta2.html, on peut découvrir Sofa (Statistics OpenFor All), un logiciel libre (http ://www.sofastatistics.com) qui permet de réaliser tous les tests, avec explications en prime, sur plateformes Windows, Mac ou Linux.

Pour les plus courageux d’entre nous, le logiciel R demeure la référence. Puissant, et gratuit, il est largement documenté sur la Toile. Son interface austère et son langage hermétique en rebuteront plus d’un, mais ce problème peut être contourné par des GUI (Graphical User Interface) telles que R Commander (http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/).

D’où sort-il, ce fameux p ?

La p-value est la « probabilité de conclure à une différence qui n’existe pas ».

Prenons l’exemple de la comparaison de la moyenne d’âge des lecteurs de What’s Up Doc en fonction de leur statut : interne ou chef de clinique. Nous avons une moyenne d’âge grâce à un sondage qui donne 25 ans pour les premiers et 30 pour les seconds.

Sachant que la probabilité d’être interne sera très faible avant 23 et après 28 ans, et que celle d’être un CCA/AH très faible avant 28 et après 35 ans, si nous faisons l’hypothèse qu’il n’y a pas de différence d’âge et que ce que nous observons est lié au hasard, nous

pouvons calculer la probabilité d’observer un tel écart (5 ans).

Elle est de 2,5 %, donc p = 0,025. Prenons ce risque et disons : « Les chefs de clinique sont en moyenne 5 ans plus vieux et cette différence est statistiquement significative ».

Easy, no ?

Alors, bonnes analyses !

Les gros dossiers

+ De gros dossiers