Il y a deux ans, j'avais écrit un billetà propos d'une conférence qui avait été donnée par Steve Bissonnette, Ph.D. en éducation. Comme je l'écrivais à l'époque, elle m'avait beaucoup intéressé.
Bissonnette y présentait le travail de John Hattie, publié dans le bouquin "Visible Learning". Les conclusions de ce travail s'appuient sur plus de 800 méta-analyses et 50 000 recherches auprès de plus de 200 millions d'élèves. Bref, à mes yeux, ça avait l'air vraiment béton.
Je suis très heureux d'en avoir parlé ici car un des lecteurs de ce blogue, Pierre-Jérôme Bergeron, Ph.D. en statistique, a immédiatement été sceptique. Il a publié un texte dans la Revue des sciences de l'éducation de McGill dans lequel il qualifie les travaux de Hattie de pseudoscience. Je lui suis reconnaissant d'avoir partagé son analyse avec nous.
Avant d'accepter les conclusions de Hattie comme paroles d'évangile, je vous recommande fortement de lire cet article. En voici quelques extraits pour vous mettre l'eau à la bouche:
Les travaux de John Hattie sur l’enseignement comportent, semble-t-il, ce qu’il y a de plus complet comme synthèse des recherches dans le domaine de l’éducation. Son livre, Visible Learning (Hattie, 2008), est considéré par plusieurs comme une Bible ou un Saint-Graal : « Lorsque ce travail est paru, certains commentateurs l’ont décrit comme le Saint-Graal de l’éducation, ce qui n’est sans doute pas une trop grande hyperbole » (Baillargeon, 2014, paragr. 13).
Pour ceux qui sont peu habitués à décortiquer les chiffres, une telle synthèse parait en effet être un travail colossal et minutieux, ce qui donne des apparences de validité scientifique. Pour un statisticien accoutumé à la méthode scientifique, de l’élaboration des questions à l’interprétation des analyses, les apparences ne suffisent pas. Il faut regarder en profondeur, et sous l’œil d’un expert, le château du Roi pêcheur qui garde le Graal devient un fragile château de cartes qui s’écroule rapidement. Cet article offre une critique de la méthodologie utilisée par Hattie du point de vue d’un statisticien.
On peut conter des histoires à partir de données réelles pour vulgariser les résultats, mais ces histoires ne doivent pas tomber dans la fiction.
(...) Malheureusement, en lisant Visible Learning et les ouvrages subséquents de Hattie et de son équipe, quiconque s’y connait en matière de données probantes et de méthodologie statistique déchante très rapidement. Pourquoi ? Parce qu’on ne peut pas recueillir des données n’importe comment ni les analyser ou les interpréter n’importe comment. Or, ceci résume la méthodologie réelle du chercheur néo-zélandais. Croire Hattie, c’est avoir un angle mort dans ses outils de pensée critique quand vient le temps d’évaluer la rigueur scientifique. Faire la promotion de ses travaux c’est malheureusement tomber dans l’apologie de la pseudoscience. Enfin, persister à défendre Hattie après avoir pris connaissance de la critique sérieuse de sa méthodologie constitue de l’aveuglement volontaire.
(...) En gros, Hattie fait des moyennes qui n’ont aucun sens. L’exemple classique d’une telle moyenne est de dire que, si j’ai la tête dans le four et les pieds au congélateur, en moyenne, je suis très confortable.
(...) L’effet de la taille des classes (sous la barre « significative » selon Visible Learning, qui est 0,4) est positif et on suppose qu’on compare de petites classes à de plus grandes classes (le succès scolaire est plus grand dans les classes plus petites). On aurait pu comparer les grandes classes aux petites, et l’effet aurait été négatif (les grandes classes ont moins de succès que les petites), et l’interprétation que fait Hattie (la taille des classes n’a pas un impact important) deviendrait complètement différente, étant donné qu’un impact négatif est considéré comme étant mauvais.
Il en va de même pour le statut socio-économique. L’effet est grand (0,59), mais puisque Hattie ne peut changer le statut socio-économique des élèves, il ne s’en préoccupe pas. La comparaison implicite est que les élèves issus de milieux plus riches ont plus de succès que les élèves plus pauvres et, donc, la base de comparaison est constituée des élèves plus pauvres. On pourrait tout aussi bien comparer les plus pauvres aux plus riches et, parce que les défavorisés ont moins de succès scolaire, l’effet du statut socio-économique deviendrait -0,59, le plus négatif de tous, si on ne change aucun autre. Organiser le système d’éducation de façon à atténuer le plus possible l’effet des inégalités sociales devient alors une intervention qui mérite d’être étudiée, en s’inspirant peut-être de la Finlande, par exemple, où cette approche semble avoir du succès, du moins, du point de vue des tests PISA (Reinikainen, 2012).
L’autre choix arbitraire est le regroupement pour faire des effets moyens. Là, en plus de mêler des dimensions multiples et incompatibles, Hattie confond deux populations distinctes : la population des influences sur le succès scolaire et la population des études sur ces influences. Comme analogie, on pourrait énumérer tout ce qui se vend en épicerie selon le prix et dire que ce sont les produits de la mer qui ont le plus d’impact sur le panier d’épicerie, parce que le caviar est hors de prix. Évidemment, vu que le consommateur moyen n’achète que très rarement, voire jamais du caviar, il faudrait tenir compte d’une pondération des prix qui reflète les quantités de chaque produit que le consommateur achète vraiment pour s’approcher de la réalité. Retournons à l’exemple de l’impact du genre sur le succès scolaire. Il est 0,12 selon Hattie, donc en faveur des garçons. Si ce chiffre était représentatif d’une quelconque réalité, cela voudrait dire que les garçons ont un peu plus de succès à l’école que les filles. Ce n’est pas le cas au Québec ni dans la plupart des pays industrialisés (Legewie et DiPrete, 2012).
L’interprétation que Hattie fait des effets n’est donc pas la moindrement objective. Comme mentionné plus tôt, selon son cadran, les effets sous zéro sont néfastes, entre 0 et 0,4 on passe des effets « de développement » aux effets « des professeurs » et au-dessus de 0,4, on a la zone d’effets désirés. Il n’a aucune justification pour faire un tel classement. D’abord, il n’a pas de point de référence de base universel pour centrer son effet nul et parler de développement. Une personne seule et sans instruction peut-elle apprendre d’elle-même de façon mesurable ? Si les effets dus aux professeurs tombent entre 0,15 et 0,4, pourquoi l’impact de la connaissance de la matière par l’enseignant est-il seulement de 0,09 ? Peut-on dire que quelqu’un désapprend lorsqu’un effet est négatif ?
(...) On pourrait passer un temps fou à décortiquer chaque méta-analyse utilisée, à évaluer à quel point il y a des erreurs de calcul et d’interprétation et à décrire les limites réelles des analyses d’origine. L’espace manque aussi pour expliquer la complexité et les subtilités d’une modélisation raisonnable d’effets d’intervention à partir de différentes études observationnelles ou expérimentales, des questions de relations dose-effet, de situations géographiques et temporelles. Tout cela est complètement perdu lorsqu’on décide de tout réduire en un seul chiffre qui est insuffisant pour représenter la réalité.
En somme, il est clair que John Hattie et son équipe n’ont ni les connaissances ni les compétences pour faire des analyses statistiques valides. Personne ne devrait imiter cette méthodologie et cette façon de faire, parce qu’on ne doit jamais accepter la pseudoscience. C’est fort malheureux parce qu’il serait possible de faire de la véritable science avec les données de centaines de méta-analyses.
(...) on doit consulter un statisticien avant de recueillir des données. Et pendant la collecte de données. Et après. Mais surtout, à chaque étape d’une étude. Il ne faut pas se laisser impressionner par la quantité de chiffres et la taille des échantillons ; il faut se préoccuper de la qualité du plan d’expérience et de la validité des données recueillies.
Pour tout cela, il faut faire appel à des statisticiens d’expérience qui sauront garder l’œil ouvert et l’esprit critique. Toute université qui se respecte a un service de consultation statistique pour soutenir la recherche scientifique. Il est aussi possible d’obtenir ces services par des compagnies ou consultants privés. Il n’y a aucune raison pour les facultés d’éducation de ne pas faire appel à de tels services. Il est impératif de le faire, car, si l’on se fie à Indiana Jones et la dernière croisade, les conséquences de mal choisir son Graal sont fort tragiques.
Bissonnette y présentait le travail de John Hattie, publié dans le bouquin "Visible Learning". Les conclusions de ce travail s'appuient sur plus de 800 méta-analyses et 50 000 recherches auprès de plus de 200 millions d'élèves. Bref, à mes yeux, ça avait l'air vraiment béton.
Je suis très heureux d'en avoir parlé ici car un des lecteurs de ce blogue, Pierre-Jérôme Bergeron, Ph.D. en statistique, a immédiatement été sceptique. Il a publié un texte dans la Revue des sciences de l'éducation de McGill dans lequel il qualifie les travaux de Hattie de pseudoscience. Je lui suis reconnaissant d'avoir partagé son analyse avec nous.
Avant d'accepter les conclusions de Hattie comme paroles d'évangile, je vous recommande fortement de lire cet article. En voici quelques extraits pour vous mettre l'eau à la bouche:
Les travaux de John Hattie sur l’enseignement comportent, semble-t-il, ce qu’il y a de plus complet comme synthèse des recherches dans le domaine de l’éducation. Son livre, Visible Learning (Hattie, 2008), est considéré par plusieurs comme une Bible ou un Saint-Graal : « Lorsque ce travail est paru, certains commentateurs l’ont décrit comme le Saint-Graal de l’éducation, ce qui n’est sans doute pas une trop grande hyperbole » (Baillargeon, 2014, paragr. 13).
Pour ceux qui sont peu habitués à décortiquer les chiffres, une telle synthèse parait en effet être un travail colossal et minutieux, ce qui donne des apparences de validité scientifique. Pour un statisticien accoutumé à la méthode scientifique, de l’élaboration des questions à l’interprétation des analyses, les apparences ne suffisent pas. Il faut regarder en profondeur, et sous l’œil d’un expert, le château du Roi pêcheur qui garde le Graal devient un fragile château de cartes qui s’écroule rapidement. Cet article offre une critique de la méthodologie utilisée par Hattie du point de vue d’un statisticien.
On peut conter des histoires à partir de données réelles pour vulgariser les résultats, mais ces histoires ne doivent pas tomber dans la fiction.
(...) Malheureusement, en lisant Visible Learning et les ouvrages subséquents de Hattie et de son équipe, quiconque s’y connait en matière de données probantes et de méthodologie statistique déchante très rapidement. Pourquoi ? Parce qu’on ne peut pas recueillir des données n’importe comment ni les analyser ou les interpréter n’importe comment. Or, ceci résume la méthodologie réelle du chercheur néo-zélandais. Croire Hattie, c’est avoir un angle mort dans ses outils de pensée critique quand vient le temps d’évaluer la rigueur scientifique. Faire la promotion de ses travaux c’est malheureusement tomber dans l’apologie de la pseudoscience. Enfin, persister à défendre Hattie après avoir pris connaissance de la critique sérieuse de sa méthodologie constitue de l’aveuglement volontaire.
(...) En gros, Hattie fait des moyennes qui n’ont aucun sens. L’exemple classique d’une telle moyenne est de dire que, si j’ai la tête dans le four et les pieds au congélateur, en moyenne, je suis très confortable.
(...) L’effet de la taille des classes (sous la barre « significative » selon Visible Learning, qui est 0,4) est positif et on suppose qu’on compare de petites classes à de plus grandes classes (le succès scolaire est plus grand dans les classes plus petites). On aurait pu comparer les grandes classes aux petites, et l’effet aurait été négatif (les grandes classes ont moins de succès que les petites), et l’interprétation que fait Hattie (la taille des classes n’a pas un impact important) deviendrait complètement différente, étant donné qu’un impact négatif est considéré comme étant mauvais.
Il en va de même pour le statut socio-économique. L’effet est grand (0,59), mais puisque Hattie ne peut changer le statut socio-économique des élèves, il ne s’en préoccupe pas. La comparaison implicite est que les élèves issus de milieux plus riches ont plus de succès que les élèves plus pauvres et, donc, la base de comparaison est constituée des élèves plus pauvres. On pourrait tout aussi bien comparer les plus pauvres aux plus riches et, parce que les défavorisés ont moins de succès scolaire, l’effet du statut socio-économique deviendrait -0,59, le plus négatif de tous, si on ne change aucun autre. Organiser le système d’éducation de façon à atténuer le plus possible l’effet des inégalités sociales devient alors une intervention qui mérite d’être étudiée, en s’inspirant peut-être de la Finlande, par exemple, où cette approche semble avoir du succès, du moins, du point de vue des tests PISA (Reinikainen, 2012).
L’autre choix arbitraire est le regroupement pour faire des effets moyens. Là, en plus de mêler des dimensions multiples et incompatibles, Hattie confond deux populations distinctes : la population des influences sur le succès scolaire et la population des études sur ces influences. Comme analogie, on pourrait énumérer tout ce qui se vend en épicerie selon le prix et dire que ce sont les produits de la mer qui ont le plus d’impact sur le panier d’épicerie, parce que le caviar est hors de prix. Évidemment, vu que le consommateur moyen n’achète que très rarement, voire jamais du caviar, il faudrait tenir compte d’une pondération des prix qui reflète les quantités de chaque produit que le consommateur achète vraiment pour s’approcher de la réalité. Retournons à l’exemple de l’impact du genre sur le succès scolaire. Il est 0,12 selon Hattie, donc en faveur des garçons. Si ce chiffre était représentatif d’une quelconque réalité, cela voudrait dire que les garçons ont un peu plus de succès à l’école que les filles. Ce n’est pas le cas au Québec ni dans la plupart des pays industrialisés (Legewie et DiPrete, 2012).
L’interprétation que Hattie fait des effets n’est donc pas la moindrement objective. Comme mentionné plus tôt, selon son cadran, les effets sous zéro sont néfastes, entre 0 et 0,4 on passe des effets « de développement » aux effets « des professeurs » et au-dessus de 0,4, on a la zone d’effets désirés. Il n’a aucune justification pour faire un tel classement. D’abord, il n’a pas de point de référence de base universel pour centrer son effet nul et parler de développement. Une personne seule et sans instruction peut-elle apprendre d’elle-même de façon mesurable ? Si les effets dus aux professeurs tombent entre 0,15 et 0,4, pourquoi l’impact de la connaissance de la matière par l’enseignant est-il seulement de 0,09 ? Peut-on dire que quelqu’un désapprend lorsqu’un effet est négatif ?
(...) On pourrait passer un temps fou à décortiquer chaque méta-analyse utilisée, à évaluer à quel point il y a des erreurs de calcul et d’interprétation et à décrire les limites réelles des analyses d’origine. L’espace manque aussi pour expliquer la complexité et les subtilités d’une modélisation raisonnable d’effets d’intervention à partir de différentes études observationnelles ou expérimentales, des questions de relations dose-effet, de situations géographiques et temporelles. Tout cela est complètement perdu lorsqu’on décide de tout réduire en un seul chiffre qui est insuffisant pour représenter la réalité.
En somme, il est clair que John Hattie et son équipe n’ont ni les connaissances ni les compétences pour faire des analyses statistiques valides. Personne ne devrait imiter cette méthodologie et cette façon de faire, parce qu’on ne doit jamais accepter la pseudoscience. C’est fort malheureux parce qu’il serait possible de faire de la véritable science avec les données de centaines de méta-analyses.
(...) on doit consulter un statisticien avant de recueillir des données. Et pendant la collecte de données. Et après. Mais surtout, à chaque étape d’une étude. Il ne faut pas se laisser impressionner par la quantité de chiffres et la taille des échantillons ; il faut se préoccuper de la qualité du plan d’expérience et de la validité des données recueillies.
Pour tout cela, il faut faire appel à des statisticiens d’expérience qui sauront garder l’œil ouvert et l’esprit critique. Toute université qui se respecte a un service de consultation statistique pour soutenir la recherche scientifique. Il est aussi possible d’obtenir ces services par des compagnies ou consultants privés. Il n’y a aucune raison pour les facultés d’éducation de ne pas faire appel à de tels services. Il est impératif de le faire, car, si l’on se fie à Indiana Jones et la dernière croisade, les conséquences de mal choisir son Graal sont fort tragiques.