Réplication en sciences économiques : Quand le code contredit le texte

Publié le 15 octobre 2024 Mis à jour le 21 octobre 2024
Date(s)

le 15 octobre 2024

Zoom sur la recherche

 


Simone Bertoli
Professeur des universités,
CERDI-UCA-CNRS-IRD


Jordan Loper
Maître de conférences,
CERDI-UCA-CNRS-IRD


Melchior Clerc
Doctorant,
CERDI-UCA-CNRS-IRD


Èric Roca Fernández
Maître de conférences,
CERDI-UCA-CNRS-IRD

Ces dernières années, le processus d’évaluation des articles en sciences économiques a évolué avec l’ajout d’une étape clé pour les articles basés sur des analyses empiriques. Après validation par les pairs et l’éditeur, les auteurs doivent interagir avec le Data Editor, qui vérifie si les codes et données utilisés reproduisent les résultats présentés. Ce dernier peut refuser la publication en cas de problèmes liés aux données. Si l’article est accepté, les codes et données sont publiés conformément aux principes de science ouverte, permettant la vérification et la réplication par d’autres chercheurs. Cependant, la réplicabilité stricte des résultats n’est pas toujours garantie, car la cohérence entre la méthodologie décrite dans l’article et le code n'est pas systématiquement contrôlée. Cette faille souligne la nécessité de repenser certaines pratiques et de promouvoir davantage les réplications d’études scientifiques.

L’article de Simone Bertoli, Melchior Clerc, Jordan Loper et Èric Roca Fernández, publié dans un numéro spécial de la revue Economic Inquiry dédié à la réplication en sciences économiques, illustre l’importance du manque de cohérence décrit précédemment dans l’évaluation de certains papiers. Les quatre auteurs répliquent un article influent (cumulant à ce jour déjà plus de 400 citations sur Google Scholar) de Paola Giuliano et Nathan Nunn, « Understanding Cultural Persistance and Change », publié en 2021 dans la prestigieuse Review of Economic Studies. Dans cet article, Paola Giuliano et Nathan Nunn testent, en utilisant différentes sources de données, une prédiction théorique issue de l’anthropologie évolutive : une plus grande variabilité des conditions météorologiques vécue par les ancêtres d’une population actuelle réduit l’importance que cette population attache aujourd’hui à la tradition, et donc limite la persistance des normes culturelles entre générations.

Des incohérences entre le texte et le code de l’étude de Giuliano et Nunn (2021)

Dans le cadre de leur exercice de réplication, cette équipe du CERDI a comparé systématiquement la méthodologie décrite dans le papier (notamment les spécifications économétriques et les définitions des variables), avec le code et les données fournis dans les fichiers de réplication. En outre, certaines incohérences ont été relevées grâce à une analyse des sources de données originales utilisées par les auteurs. Il est important de souligner qu’un tel exercice n’a pas pour objectif de réinterroger la pertinence des choix empiriques effectués dans le code, mais bien de s’assurer qu’ils ont été mis en œuvre conformément aux descriptions faites par les auteurs dans leur article. Cet exercice a la vertu de s’assurer de la bonne transparence et réplicabilité des études scientifiques

Plusieurs points indépendants d’incohérence entre l’article et le code ont été révélés par ce travail de réplication. Pour chacun de ces points, l’exercice de réplication s’attache à quantifier l’importance de la contradiction entre l’article et le code (notamment en présentant le nombre d’observations affectées dans chaque spécification estimée avec des données individuelles), et présente, lorsque cela est possible, les résultats de l’analyse économétrique obtenus après avoir rendu le code cohérent avec le texte de l’article. Cet exercice reflète l’idée que la méthodologie approuvée par les pairs et l’éditeur est celle décrite dans l’article, et non pas celle effectivement utilisée dans le code. Il est donc central de connaître les résultats obtenus sur la base d’une méthodologie qui a été validée. Ces résultats donnent, en général, une vision beaucoup plus nuancée de la relation mise en avant par les auteurs entre la variabilité des conditions météorologiques historiques et l’importance actuelle de la tradition. 

A titre d’exemple, les auteurs écrivent dans leur article que toutes les spécifications estimées utilisant des données individuelles pour les États-Unis incluent des effets fixes pour la ville (metropolitan area) de résidence de chaque individu, en soulignant (à plusieurs reprises) que l’utilisation de ces effets fixes est cruciale pour l’identification du modèle économétrique et de la relation causale sous-jacente. Cependant, l’analyse de leur code révèle que les auteurs ont attribué un même effet fixe à tous les individus pour lesquels la variable metropolitan area prenait les valeurs « Not identifiable » ou « Not in an MSA ». Ces valeurs ayant été utilisées pour définir des effets fixes pour des villes, les individus pour lesquels cette variable n’était pas exploitable ont été considérés comme résidant au même endroit. Un pourcentage de l’échantillon variant entre 17,0 et 75,3 pour cent correspond ainsi à des individus faussement considérés comme partageant une même ville de résidence. En conséquence, ces individus sont comparés les uns avec les autres lors de l’analyse empirique, en contradiction avec l’affirmation des auteurs d’étudier seulement des groupes d’individus vivant au même endroit. 

Des échanges peu convaincants avec les auteurs et l’éditeur de l’étude originale

Notons que ce travail de réplication a fait l’objet de plusieurs échanges avec les auteurs de l’étude, ainsi qu’avec l’éditeur de la Review of Economic Studies, qui a accepté la publication de l’article original. Ces échanges n’ont pas permis d’éclaircir tous les points soulevés lors de l’exercice de réplication. Par ailleurs, en octobre 2023, la Review of Economic Studies a publié une correction de l’article original, après que Simone Bertoli, Melchior Clerc, Jordan Loper et Èric Roca Fernández ont pris contact avec la revue et les auteurs.  

Dans cette correction, Paola Giuliano et Nathan Nunn affirment que ce point, ainsi que les autres décrits dans l’exercice de réplication, ne reflètent pas des incohérences entre l’article et le code mais seulement des imprécisions d’écriture dans l’article original, qui n’incluait alors pas tous les détails de la méthodologie utilisée. Concernant l’exemple donné précédemment, la correction publiée affirme « [t]hroughout the paper, we treat a missing MSA as a category in the residence fixed effects. » Ainsi, plutôt que d’évaluer les implications pour les résultats d’un décalage entre l’article et le code, comme fait dans l’exercice de réplication de l’équipe du CERDI, la correction se contente simplement de réaligner la méthodologie décrite dans l’article avec le code. Il est par ailleurs à noter que la correction ne tempère pas les affirmations sur l’importance de comparer des individus vivant dans la même ville, quand en réalité une grande partie (parfois plus de la moitié de l’échantillon) correspond à des individus résidant dans des zones rurales bien distinctes au sein des Etats-Unis. L’exercice de réplication de Simone Bertoli, Melchior Clerc, Jordan Loper et Èric Roca Fernández dans la revue Economic Inquiry met en lumière une liste plus exhaustive des incohérences trouvées ainsi que de leur influence sur les résultats de l’étude (lorsque les données le permettent).

Vers de meilleures pratiques scientifiques

Le travail sur les données occupe un rôle crucial dans la création d’un article empirique. Au-delà de l’exemple représenté par l’article de Paola Giuliano et Nathan Nunn, les auteurs souhaitent attirer l’attention de leurs pairs sur l’importance de l’évaluation du travail fait sur des données, ainsi que la cohérence de ce dernier avec ce qui est écrit dans le texte du papier. Il semble aujourd’hui nécessaire que les revues scientifiques évaluent, dans leur processus de sélection, cette « partie cachée de l’iceberg », au même titre que le corps de l’article en lui-même.
 

Référence de l'article

Bertoli, S., Clerc, M., Loper, J., et Roca Fernández, È. (2024). Understanding cultural persistence and change: A replication of Giuliano and Nunn (2021). Economic InquiryFichiers de réplication.
 

Références bibliographiques

Giuliano, P., et Nunn, N. (2021). Understanding cultural persistence and change. The Review of Economic Studies, 88(4), 1541-1581.

Giuliano, P., et Nunn, N. (2024). Correction to: Understanding Cultural Persistence and Change, The Review of Economic Studies, 91(1), 597.