Resumo Modelos multimodais de grande porte (MLLMs) capazes de processar entradas tanto textuais quanto visuais estão sendo cada vez mais explorados para usos na educação em física, como tutoria, avaliação formativa e correção. Este estudo avalia uma variedade de MLLMs disponíveis publicamente em um conjunto padronizado de avaliações conceituais baseadas em pesquisa em física com imagens (inventários conceituais). Nós comparamos 15 modelos de três grandes fornecedores (Anthropic, Google e OpenAI) em 102 itens de física, focando em duas questões principais: (1) Quão bem esses modelos desempenham em tarefas conceituais de física que envolvem representações visuais? e (2) Quais são os custos financeiros associados ao seu uso? Os resultados mostram alta variabilidade tanto no desempenho quanto no custo. O desempenho dos modelos testados varia de 81,5% até 21%. Também constatamos que modelos caros nem sempre superam os mais baratos e que, dependendo das demandas do contexto, modelos mais baratos podem ser suficientemente capazes para algumas tarefas. Isso é especialmente relevante em contextos onde os recursos financeiros são limitados ou para a implementação educacional em larga escala dos MLLMs. Ao fornecer essas análises, nosso objetivo é informar professores, instituições e outros stakeholders educacionais para que possam tomar decisões baseadas em evidências sobre a seleção de modelos para uso na educação em física assistida por IA.
Building similarity graph...
Analyzing shared references across papers
Loading...
Giulia Polverini
Bor Gregorcic
European Journal of Physics
Building similarity graph...
Analyzing shared references across papers
Loading...
Polverini et al. (Sex,) estudaram esta questão.
www.synapsesocial.com/papers/68c18f329b7b07f3a061589b — DOI: https://doi.org/10.1088/1361-6404/ae03f8
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: