Key points are not available for this paper at this time.
Nous proposons un benchmark pour mesurer si un modèle de langage est véridique dans la génération de réponses aux questions. Le benchmark comprend 817 questions réparties en 38 catégories, incluant la santé, le droit, la finance et la politique. Nous avons élaboré des questions auxquelles certains humains répondraient faussement en raison d’une croyance erronée ou d’une idée fausse. Pour bien réussir, les modèles doivent éviter de générer des réponses fausses apprises en imitant les textes humains. Nous avons testé GPT-3, GPT-Neo/J, GPT-2 et un modèle basé sur T5. Le meilleur modèle était véridique pour 58 % des questions, tandis que la performance humaine était de 94 %. Les modèles ont généré de nombreuses réponses fausses qui imitent des idées reçues populaires et ont le potentiel de tromper les humains. Les plus grands modèles étaient généralement les moins véridiques. Cela contraste avec d’autres tâches de PLN, où la performance s’améliore avec la taille du modèle. Cependant, ce résultat est attendu si les réponses fausses sont apprises à partir de la distribution d’entraînement. Nous suggérons que l’augmentation seule de la taille des modèles est moins prometteuse pour améliorer la véracité que le réglage fin avec des objectifs d’entraînement autres que l’imitation de textes publiés sur le web.
Building similarity graph...
Analyzing shared references across papers
Loading...
Stephanie Lin
Jacob Hilton
Owain Evans
University of Oxford
Building similarity graph...
Analyzing shared references across papers
Loading...
Lin et al. (Sat,) ont étudié cette question.
www.synapsesocial.com/papers/6994f2fe03acb0fc22601bc5 — DOI: https://doi.org/10.18653/v1/2022.acl-long.229
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: