May 8, 2025Open Access

Explosion d'articles de recherche formulaires, incluant des conceptions d'études inappropriées et des découvertes fausses, basées sur la base de données nationale américaine de santé NHANES

Key Points

Key points are not available for this paper at this time.

Abstract

Avec la croissance des ensembles de données prêts pour l'intelligence artificielle (IA) tels que le National Health and Nutrition Examination Survey (NHANES), de nouvelles opportunités de recherche basée sur les données se créent, mais génèrent également des risques d'exploitation des données par des usines à articles. Dans ce travail, nous nous concentrons sur deux domaines de préoccupation potentielle pour les efforts de recherche aidés par IA. Premièrement, nous décrivons la production d'un grand nombre d'analyses simplistes à facteur unique, reliant des prédicteurs uniques à des conditions de santé spécifiques, alors que des approches multifactorielle seraient plus appropriées. L'utilisation d'approches à facteur unique soutenues par IA enlève le contexte de la recherche, ne capture pas les interactions, évite la correction des fausses découvertes, et est une approche facilement adoptée par les usines à articles. Deuxièmement, nous identifions des risques d'utilisation sélective des données, tels qu'analyser des plages de dates limitées ou des sous-ensembles de cohorte sans justification claire, ce qui suggère de la pêche aux données et une formation a posteriori d'hypothèses. En utilisant une recherche systématique de la littérature pour des analyses à facteur unique, nous avons identifié 341 articles de recherche dérivés de NHANES publiés au cours de la dernière décennie, chacun proposant une association entre un prédicteur et une condition de santé parmi la large gamme contenue dans NHANES. Nous avons trouvé des preuves que la recherche n'a pas pris en compte les relations multifactorielle, que les manuscrits n'ont pas tenu compte des risques de fausses découvertes, et que les chercheurs ont extrait sélectivement des données de NHANES plutôt que d'utiliser l'ensemble des données disponibles. Étant donné l'explosion de la productivité assistée par IA dans les manuscrits publiés (la stratégie de recherche systématique utilisée ici a identifié en moyenne 4 articles par an de 2014 à 2021, mais 190 en 2024 - jusqu'au 9 octobre seulement), nous mettons en avant un ensemble de bonnes pratiques pour répondre à ces préoccupations, destinées aux chercheurs, responsables des données, éditeurs et évaluateurs, afin d'encourager une amélioration des pratiques statistiques et de réduire les risques que des usines à articles utilisant des flux de travail assistés par IA introduisent des manuscrits de faible qualité dans la littérature scientifique.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tulsi Suchak

Anietie E Aliu

C. V. Harrison

Journals

PLoS Biology

Actions

Institutions

University of Surrey

Aberystwyth University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Explosion d'articles de recherche formulaires, incluant des conceptions d'études inappropriées et des découvertes fausses, basées sur la base de données nationale américaine de santé NHANES

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider