Key points are not available for this paper at this time.
O Abstraction Reasoning Corpus (ARC) é um teste de raciocínio analógico visual projetado para humanos e máquinas (Chollet, 2019). Comparamos o desempenho humano e de grandes modelos de linguagem (LLMs) em um novo conjunto de itens ARC apropriados para crianças. Os resultados mostram que tanto crianças quanto adultos superam a maioria dos LLMs nessas tarefas. A análise de erros revelou uma estratégia de solução "fallback" semelhante em LLMs e crianças pequenas, na qual parte da analogia é simplesmente copiada. Além disso, encontramos dois outros tipos de erro, um baseado na aparente compreensão de conceitos chave (por exemplo, Dentro-Fora) e o outro baseado em combinações simples das matrizes de entrada da analogia. No geral, os erros de "conceito" foram mais comuns em humanos, e os erros de "matriz" foram mais comuns em LLMs. Este estudo lança nova luz sobre a capacidade de raciocínio dos LLMs e a extensão em que podemos usar análises de erros e comparações com o desenvolvimento humano para entender como os LLMs resolvem analogias visuais.
Building similarity graph...
Analyzing shared references across papers
Loading...
Gustaw Opiełka
Hannes Rosenbusch
Veerle Vijverberg
Building similarity graph...
Analyzing shared references across papers
Loading...
Opiełka et al. (Qua,) estudaram esta questão.
www.synapsesocial.com/papers/68e74464b6db6435876be26d — DOI: https://doi.org/10.48550/arxiv.2403.09734
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: