Le recueil de données : entre la recherche et les stats !

Article Article

Et non… Le chemin qui sépare le 1er jour au labo de l'écriture d'un article scientifique nous réserve de nombreuses embûches ! Quelques clés pour bien commencer son recueil de données.

Le recueil de données : entre la recherche et les stats !

/// Données, vous avez dit données ?

Comme dans les étapes précédentes, (cf. articles précédents) l'anticipation est la clé du succès ! Il faut avoir une idée de ce que l'on cherche pour bien convertir la question en variable sà recueillir. Mais v’là déjàle PU du cru : « Font chier ces méthodologistes ! Fais ta recherche d'abord. Tu verras sur les 10 premières manips ce qu'il faut recueillir ».
Eh bien non, patron !
Notre question de recherche doit être claire et précise, et notre fichier de données le sera tout autant. D'ailleurs comme ça, quand j'irai voir le statisticien, il ne m'en recollera pas pour 3 semaines de travail sur ma base de données…

/// Les tableurs, c'est facile, c'est pas cher, et ça peut rapporter gros !

La solution la plus simple est effectivement l'utilisation d'un tableur. Microsoft Excel est le plus utilisé, mais des logiciels gratuits tels qu’OpenOffice ou LibreOffice font tout autant l'affaire. Leur facilité d'utilisation est à la fois leur force et leur faiblesse. Faut dire aussi qu’on n’est pas des informaticiens dans l’âme…
Donc quelques règles simples !
La première ligne du tableau pour identifier les variables, la première colonne pour identifier les patients, ça, ça me va !
Ensuite, je remplis le tableau au fil de l'eau. Mais attention, le tableur permet d'écrire n'importe quoi dans chaque case, sans contrôle. Du coup, je dois m'imposer une très grande rigueur dans la saisie des données et utiliser les lettres avec une grande parcimonie au profit de données chiffrées. On oublie donc toute velléité proustienne !
J'essaye de toujours garder à l'esprit que l'objectif du recueil de données est l'analyse statistique.
Et l’analyse statistique, elle ne prendra pas en compte le commentaire entre parenthèses que le chercheur consciencieux que je suis aura inscrit dans la case à côté de la valeur de CRP (C-Reactive Protein).
Ce commentaire, quelle que soit sa pertinence, risque de rendre la colonne inexploitable ! S’il est indispensable, alors on lui trouve une case spécifique !

Pour nous aider, il faut suivre les 8 commandements du recueil de données pour les nuls :
• 1 patient (ou 1 mesure, ou 1 souris…) = 1 ligne dans le fichier de données = 1 identifiant unique (1, 2, 3).
• 1 variable = 1 colonne dans le fichier de données.
• Si une variable est mesurée plusieurs fois, lui donner un identifiant différent.
• 1 case = 1 information (valeur de la variable a pour le patient 1). Interdiction de mettre plus d'un chiffre par ligne !
• Préférer le codage des données catégorielles en chiffres (1 = oui, 2 = non…). Ça facilitera grandement l'exploitation.
• Choisir un code et un seul pour les données manquantes (case vide, 99…).
• Ne jamais mettre de lettres dans une colonne numérique (pas de NC/ND au milieu de valeurs de CRP) au risque de rendre le fichier inexploitable…
• Ne pas inscrire les unités (mg/L, éléments /mm3...) dans la case mais dans l'entête des variables.

Les gros dossiers

+ De gros dossiers