Comment choisir un test statistique

Author

Jill Vandermeerschen

Published

November 24, 2023

“Quelle analyse statistique dois-je faire?” est une des questions le plus souvent posée en consultation statistique. Cette page vous présente ma stratégie générale pour faire un choix.

Notez qu’il doit exister d’autres stratégies et que la plupart des livres de statistiques discute de ce sujet ou présente un tableau de décision. Cette page se veut un peu plus générale.

Question importante

Comment sait-on que l’analyse qui a été choisie est la bonne?

Réponse
  • Elle répond à la question ou à l’hypothèse de recherche.
  • Les hypothèses ou postulats de l’analyse sont respectés. Autrement dit, j’ai le droit de faire cette analyse.

1. Méthode globale

Le premier choix d’analyse dépend de trois éléments:

  1. Les questions et les hypothèses de recherche.
  2. Le devis de recherche.
  3. Les variables ou mesures utilisées.

Une fois le premier choix effectué, vous devez vérifier si les hypothèses spécifiques à l’analyse choisie sont respectées. Si elles le sont, alors vous pouvez effectuer l’analyse. Si elles ne le sont pas, vous devez recommencer le choix ou transformer vos données lorsque cette option est possible.

La figure suivante illustre la méthode.

Méthode de choix d’analyse

Regardons plus en détails chaque étape.

1.1 Identifier les hypothèses de recherche

L’idée ici est de décortiquer votre objectif de recherche et vos questions de recheche en une ou plusieurs hypothèses précises. Plus elles seront précises et plus le choix sera facile.

Petit truc

Posez-vous la question “Qu’est-ce je veux trouver/voir/conclure de ma recherche?”.

Ensuite, posez-vous la même question pour chaque hypothèse.

Lors de l’identification des hypothèses de recherche, essayez d’utiliser les mots clés suivants:

  • Comparer ou tester une différence entre des groupes, des traitements ou des temps de mesures.
  • Analyser, expliquer ou prédire (le mot prédire n’induit pas une causalité) un phénomène avec une ou plusieurs mesures.
  • Créer ou valider un score composite.
  • Classifier les unités expérimentales (ou les participants) selon leur réponses à des variables.

Notez qu’il se peut que vos objectifs ne puissent être exprimés avec ces mots-clés. Ceci veut généralement dire que vous avez besoins d’analyses plus spécifiques (exemples: analyses de survie, analyses causales, etc.).

Important

On remarque dans la littérature récente que certains des modèles de régressions ou des modèles d’équations structurelles complexes sont vus comme une preuve de causalité. C’est faux! Si vous voulez prouver la causalité, vous devez obligatoirement faire des analyses causales.

1.2 Identifier le devis de recherche

La plupart des analyses statistiques ont pour hypothèse l’indépendances des données. Il est donc important de savoir si vous avez de la dépendance dans vos données de recherche. Cette information se trouve dans votre devis.

Il existe trois types de devis:

Devis transversal

Vous avez mesurer vos unités expérimentales ou vos participants une seule fois dans le temps. Ces données sont indépendantes.

Devis transversal

Devis longitudinal

Vous avez mesurer vos unités expérimentales plusieurs fois dans le temps, il peut donc y avoir de la dépendance dans vos données.

Devis longitudinal

Devis multiniveaux

Vos unités expérimentales sont nichées dans un (ou plusieurs) niveau supérieur qui génère une dépendance (exemple: des élèves dans des classes).

Devis multiniveaux
Important

Vous pouvez avoir un mélange de devis pour les différentes questions à l’intérieur d’un même objectif de recherche.

Exemple 1: dans un essai randomisé avec un pré-test et un post-test et des groupes contrôle et expérimental, si vous testez la différence entre les groupes seulement au pré-test, votre hypothèse est transversale.

Exemple 2: vous pourriez avoir un devis à la fois longitudinal et multiniveaux

1.3 Documenter les variables

Pour chaque hypothèse de recherche, avez-vous des variables dépendantes (VD) et indépendantes (VI)? Si c’est le cas, combien de variables dépendantes et indépendantes avez-vous?

Ensuite, il faut documenter le type de variable pour chacune d’entres elles. Il existe trois types de variables:

  1. Continue: variable mesurée sur une échelle (exemple: l’âge, le poids, une échelle de motivation, le rendement scolaire, etc.)
  2. Nominale: variable ayant des catégories non ordonnées (exemples: le genre, le groupe, le lieu de résidence, etc.)
  3. Ordinale: variable ayant des catégories ordonnées comme les échelles de Likert.

Si vous avez plusieurs variables dépendantes dans le même objectif, vous pouvez documenter leur nombre, si elles sont mesurées sur la même échelle et si elles sont théoriquement corrélées.

Important

Toutes les informations sur le type des variables se trouve dans le dictionnaire de variable. Si vous n’en avez pas, je vous recommande d’en faire un. Notez que pour les utilisateurs du logiciel SPSS, on peut considérer la vue des variables de la fenêtre de données comme le dictionnaire de variables s’il est assez précis.

2. Choisir l’analyse

Pour faciliter le choix, j’ai regroupé les analyses statistiques dans 6 grandes catégories générales:

  1. Les comparaisons entre groupes, traitements ou temps de mesure.
  2. Les régressions au sens large du terme.
  3. Les analyses multidimensionnelles ou multivariées.
  4. Les analyses de classification (“person-centered analysis”).
  5. La validation de questionnaire (psychométrie).
  6. Les autres analyses.

À partir des hypothèses de recherche et des mots clés identifiés ci-dessus (comparer/tester une différence, analyser/expliquer/prédire, Créer/valider un score ou classifier), vous pouvez utiliser l’arbre de décision suivant pour identifier la catégories d’analyse appropriée.

Arbre de décision: catégories d’analyses

Si votre mot clé est comparer ou tester une différence, l’arbre ci-dessous peut être utilisé.

Arbre de décision: comparer et tester une différence

Une fois la catégorie d’analyse identifiée, vous pouvez vous référez aux tableaux ci-dessous pour le choix final.

2.1 Comparaisons

Voici les principales analyses de comparaisons et leurs conditions d’utilisations.

Analyses de comparaisons
Test Quand Devis Type de variable Normalité
Test-t Comparer 2 groupes Transversal (Indépendant) VD continue Oui
Test de Mann-Whitney Comparer 2 groupes Transversal (Indépendant) VD continue Non
Test-t apparié Comparer 2 groupes Dépendants VD continue Oui
Tests des rangs signés de Wilcoxon Comparer 2 groupes Dépendants VD continue Non
ANOVA Comparer 3 groupes et plus ou plusieurs facteurs (2 VI et plus) Transversal (Indépendant) VD continue Oui
Test de Kruskal-Wallis Comparer 3 groupes et plus Transversal (Indépendant) VD continue Non
ANCOVA Comparer des groupes en contrôlant pour d’autres variables Transversal (Indépendant) VD continue Oui
MANOVA Comparer des groupes sur plusieurs VD Transversal (Indépendant) VD continue Oui
ANOVA à mesures répétées Comparer 3 groupes et plus ou plusieurs facteurs (2 VI ou plus) Dépendants VD continue Oui
ANOVA de Friedman Comparer 3 groupes et plus Dépendants VD continue Non
Test du Khi-carré ou Fisher Comparer deux variables nominales (binaires pour Fisher) Transversal (Indépendant) VD nominale ou binaire NSP
Test de MacNemar Comparer deux variables nominales Dépendants VD nominale ou binaire NSP
etc.

2.2 Régressions

Voici les principales analyses de régressions et leurs conditions d’utilisations.

Analyses de régressions
Test Quand Devis Type de variable
Corrélation (Pearson, Spearman, etc.) Lien entre deux variables transversal tout sauf nominale
Régression linéaire Analyser une VD avec une ou plusieurs VI transversal VD continue et normale
Régression logistique Analyser une VD avec une ou plusieurs VI transversal VD binaire
Régression linéaire généralisée Analyser une VD avec une ou plusieurs VI transversal VD autre que continue ou binaire
Régression multiniveaux (ou effets mixtes) Analyser une VD avec une ou plusieurs VI longitudinal ou multiniveaux tous
Équations structurelles (SEM) Analyser plusieurs VD (observées ou non) avec une ou plusieurs VI tous tous
Analyses de médiation Effet médiateur tous tous
Analyses de modération Effet modérateur tous tous
Analyses de trajectoires (ou courbes de croissance) Analyser une VD avec le temps comme VI (et peut-être d'autres variables) longitudinal tous
Analyses de trajectoires latentes Analyser une VD avec le temps comme VI (et peut-être d'autres variables) longitudinal tous
Modèles autorégressifs croisés Analyser plusieurs VD en régressant chaque mesures dans le temps longitudinal tous
etc.

2.3 analyses multidimensionnelles

Voici les principales analyses multidimensionnelles et leurs conditions d’utilisations.

Analyses multidimensionnelles
Test Quand Devis Type de variable
Analyses en composantes principales (ACP) Réduction de dimensions transversal continue ou binaires
Corrélations canoniques Corrélations entre deux groupes de variables transversal continue ou binaires
Analyses de correspondances multiples (ACM) Réduction de dimensions transversal nominales et binaires
Analyse des redondances (RDA) Effet d'une matrice X sur une matrice Y (réduction de dimension) transversal continue ou binaires
Analyse discriminante Réduction de dimension pour différencier des groupes (suit souvent une MANOVA) transversal continue ou binaires pour la réduction, nominale pour le groupe
Analyse de facteurs multiples Un mélange d'ACP et ACM (grosso modo) transversal tous
etc.

2.4 Création et validation de score

Voici les principales analyses de création et validation d’un score ou d’une échelle et leurs conditions d’utilisations.

Analyses multidimensionnelles
Test Quand Devis
Analyses factorielles exploratoire (EFA) Lorsque l'échelle n'a jamais été validée transversal
Alpha de Cronbach (ou autre, e.g. Krippendorf) Cohérence interne transversal
Analyses factorielles confirmatoires (CFA) Pour valider une structure existente tous (MCFA pour données dépendantes)
Analyses d'invariance Suite de la validation par CFA tous
etc.

2.5 Classification

Voici les principales analyses de classification et leurs conditions d’utilisations.

Analyses multidimensionnelles
Test Quand Devis
Analyses de clusters Classification de sujets transversal
Classes latentes ou profils latents (LCA ou LPA) Classification de sujets transversal
Analyses de transition latentes (LTA) Comparer les classification (LCA ou LPA) dans le temps longitudinal
Analyses LCGA (latent class growth analysis) ou LCGM Classifier les sujets selon leur trajectoires dans le temps longitudinal
Modèles GMM (Generalized mixture models) Classifier les sujets selon leur trajectoires dans le temps longitudinal
etc.

2.6 Autres analyses

Voici quelques autres types d’analyses.

Analyses multidimensionnelles
Test Quand
Analyses de survie Analyser la fin d'un état (la mort)
Analyses causales Pour prouver la causalité
Séries chronologiques Analyse d'une série temporelle
Analyses bayesiennes Une autre façon de modéliser les données, avec utilisitation d'une distribution a priori
etc.
Important

Généralement, lorsque les analyses choisies proviennent de la catégorie autres, il n’est pas nécessaire d’utiliser ce document, car les hypothèses sont très spécifiques et tout le processus de recherche (planification du devis, demande de subvention, etc) est spécifiquement construit autour du type d’analyse.

2.7. Mélange de catégories

Il existe des analyses qui mélangent les catégories:

  • Régression + multidimensionnelles (réduction de dimensions): RDA ou ACP régression
  • Comparaison + multidimensionnelles (réduction de dimensions): analyse discriminante
  • Classification + multidimensionnelles (réduction de dimensions): classification hiérarchique sur composantes principales (CHCP ou HCPC en anglais)
  • etc.

2.8 Et si plusieurs options sont possible?

Si vous avez plusieurs options possibles, vous pouvez évaluer vos options selon les critères suivants:

  • Les hypothèses des tests (exemple: la taille de l’échantillon, les distributions des variables, les données manquantes, etc.)
  • La culture de votre domaine de recherche.

3. Un exemple classique

Imaginez que vous avez un devis quasi-expérimental dans lequel on veut tester l’efficacité d’un traitement. Nous avons deux groupes (contrôle et expérimental) et deux temps de mesures (pré-test et post-test).

Voici quelques exemples d’hypothèses qu’on pourrait vouloir tester dans ce cas:

  1. Est-ce que les deux groupes sont différents pour ma variable dépendante (continue et normale) au pré-test?
  2. Est-ce que le nombre de garçons et de filles est différent dans mes deux groupes?
  3. Est-ce que les deux groupes sont différents pour ma VD (continue et normale) au post-test lorsque je contrôle pour la valeur de la VD au pré-test?
  4. Est-ce que la différence entre le temps (comparaison, variable binaire et répétée) est la même pour les deux groupes (variable binaire, indépendante)?

Voici les analyses qui seraient faites pour chacun des cas (en prenant pour acquis pour l’exemple que les hypothèses des analyses sont respectées):

  1. Test-t
  2. Test du khi carré (\(\chi^2\))
  3. ANCOVA
  4. ANOVA à mesures répétées à deux facteurs, le temps qui est répété et le groupe qui est fixe

4.1 Un exemple de la littérature

Voici un premier exemple extrait de la littérature.

Référence: Mahé, C., Jumarie, C., & Boily, M. (2021). The countryside or the city: Which environment is better for the honeybee?. Environmental Research, 195, 110784.

Voici une capture d’écran de leur objectif de recherche:

Objectif de recherche

Les auteures veulent voir les liens entre les contaminants (beaucoup de variables continues), les biomarqueurs (beaucoup de variables continues) et le lieu (variable binaire, rural ou urbain) chez les abeilles et le larves d’abeilles.

Analyses possibles: On pourrait choisir une ACP ou une AFM ici.

Un indice Les 3 groupes de variables sont conceptuellement différents et le lieu est binaire.

L’analyses choisie ici est l’analyse de facteurs multiples (AFM).

4.1 Un autre exemple de la littérature

Voici un deuxième exemple extrait de la littérature.

Référence: Roy-Vallières, M., Lachapelle, J., Lemay, L., Bouchard, C., & Bigras, N. (2022). Children’s engagement in Quebec childcare centres: progression from 3 to 5 years old and predictor variables. Early Child Development and Care, 1-17.

Voici une capture d’écran de leur objectif de recherche:

Objectifs de recherche

Nous allons regarder seulement le premier objectif.

Les auteures veulent étudier l’évolution de l’engagement des enfants entre 3 ans et 5 ans. Elles ont comme hypothèse que des sous-groupes d’enfants sont présents dans la population par rapport à l’engagement (4 variables d’engagement, continues). Elles veulent évaluer la transition entre les sous-groupes entre 3 ans et 5 ans.

Voici un indice: Lorsqu’on suppose des sous-groupes, ça veut dire que les sujets de recherche peuvent être classés.

L’analyse choisie et l’analyse de transition latente (LTA).

Mot de la fin

En cas de doute ou si vous avez besoin d’aide pour le choix d’analyse, vous pouvez consulter votre statisticien.ne préféré.e!