May 8, 2025Open Access

Explosion der formelhaften Forschungsartikel, einschließlich unangemessener Studiendesigns und falscher Entdeckungen, basierend auf der NHANES US-nationalen Gesundheitsdatenbank

Key Points

Key points are not available for this paper at this time.

Abstract

Mit dem Wachstum von KI-fähigen Datensätzen wie der National Health and Nutrition Examination Survey (NHANES) entstehen neue Möglichkeiten für datengetriebene Forschung, aber auch Risiken der Datenausbeutung durch Paper Mills. In dieser Arbeit konzentrieren wir uns auf zwei potenzielle Problembereiche bei KI-gestützten Forschungsbemühungen. Erstens beschreiben wir die Produktion großer Mengen formelhafter Einzelfaktoranalyse, die einzelne Prädiktoren mit spezifischen Gesundheitszuständen in Beziehung setzen, wobei multifaktorielle Ansätze angemessener wären. Die Anwendung KI-gestützter Einzelfaktoransätze entzieht der Forschung den Kontext, erfasst keine Interaktionen, vermeidet Korrekturen für falsche Entdeckungen und ist ein Ansatz, den Paper Mills leicht übernehmen können. Zweitens identifizieren wir Risiken selektiver Datennutzung, wie die Analyse begrenzter Datumsbereiche oder Kohortenuntergruppen ohne klare Rechtfertigung, was auf Datenfischen und post-hoc Hypothesenbildung hindeutet. Durch eine systematische Literatursuche nach Einzelfaktoranalyse identifizierten wir 341 aus NHANES stammende Forschungsarbeiten der letzten Dekade, die jeweils eine Assoziation zwischen einem Prädiktor und einem Gesundheitszustand aus dem breiten NHANES-Spektrum vorschlagen. Wir fanden Belege dafür, dass die Forschung multifaktorielle Zusammenhänge nicht berücksichtigte, die Manuskripte die Risiken falscher Entdeckungen nicht adressierten und Forscher selektiv Daten aus NHANES extrahierten anstatt den vollen Datenumfang zu nutzen. Angesichts der Explosion KI-unterstützter Produktivität in veröffentlichten Manuskripten (die hier verwendete systematische Suchstrategie identifizierte durchschnittlich 4 Papiere pro Jahr von 2014 bis 2021, aber 190 allein im Jahr 2024 bis zum 9. Oktober), heben wir eine Reihe von bewährten Praktiken hervor, die sich an Forscher, Datenverantwortliche, Verlage und Peer Reviewer richten, um verbesserte statistische Praktiken zu fördern und die Risiken von Paper Mills zu mindern, die KI-unterstützte Workflows verwenden, um qualitativ minderwertige Manuskripte in die wissenschaftliche Literatur einzuführen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tulsi Suchak

Anietie E Aliu

C. V. Harrison

Journals

PLoS Biology

Actions

Institutions

University of Surrey

Aberystwyth University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Explosion der formelhaften Forschungsartikel, einschließlich unangemessener Studiendesigns und falscher Entdeckungen, basierend auf der NHANES US-nationalen Gesundheitsdatenbank

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider