Los puntos clave no están disponibles para este artículo en este momento.
Investigadores han argumentado que los modelos de lenguaje a gran escala (LLMs) exhiben capacidades de escritura de alta calidad desde blogs hasta relatos. Sin embargo, evaluar objetivamente la creatividad de un texto es un desafío. Inspirados en el Torrance Test of Creative Thinking (TTCT) 64, que mide la creatividad como un proceso, usamos la Técnica de Evaluación Consensuada 3 y proponemos el Torrance Test of Creative Writing (TTCW) para evaluar la creatividad como producto. El TTCW consta de 14 pruebas binarias organizadas en las dimensiones originales de Fluidez, Flexibilidad, Originalidad y Elaboración. Reclutamos a 10 escritores creativos e implementamos una evaluación humana de 48 relatos escritos ya sea por autores profesionales o LLMs usando TTCW. Nuestro análisis muestra que los relatos generados por LLMs superan entre 3 y 10 veces menos pruebas TTCW que los relatos escritos por profesionales. Además, exploramos el uso de LLMs como evaluadores para automatizar la evaluación TTCW, revelando que ninguno de los LLMs correlaciona positivamente con las evaluaciones de expertos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tuhin Chakrabarty
Philippe Laban
D. Agarwal
Columbia University
Salesforce (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
Chakrabarty et al. (Sat,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6a888b6db64358762b5d5 — DOI: https://doi.org/10.1145/3613904.3642731
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: