초록 대형 언어 모델(LLM)이 과학 교육에서 점점 더 널리 사용됨에 따라, 실제 학습 과제에 대해 인간 학습자와의 능력 차이를 이해하는 것이 중요하다. 이러한 이해는 AI에 강한 평가를 설계하고 학생들을 문제 해결에서 지도할 수 있는 AI 튜터를 개발하는 데 필수적이다. 표준화된 평가를 벤치마크로 사용하면 널리 받아들여지는 교육 기준에 기반한 비교가 가능하다. 지금까지 대부분의 교육 벤치마크는 영어로 개발 및 평가되었으며, 다른 언어는 상대적으로 적은 관심을 받아왔다. 본 연구는 국가 고등학교 화학 졸업시험을 기반으로 한 최초의 히브리어 과학 교육 벤치마크를 도입하여 이 공백을 메운다. 우리는 ChatGPT 4o, Claude 3.5 Sonnet, Gemini 1.5 Pro 세 가지 LLM을 120개의 객관식 문제에 대해 평가하고, 139,000명 이상의 고등학생 성적과 비교했다. 모든 세 LLM은 인간 학습자에 비해 유의미하게 낮은 성과를 보였다. LLM에게 더 어려운 문제 특징을 조사하기 위해 회귀 분석을 실시한 결과, 시각적 요소와 다단계 추론 과제가 성능에 부정적인 영향을 미친다는 점을 발견했다. 마지막으로 화학 교육 전문가들이 LLM이 가장 어려워한 문제를 분석하여 도메인별 실패 양상을 특성화했다. 이 연구는 (1) 언어적 맥락이 덜 다루어진 곳에서의 LLM 평가 확장, (2) 실제 국가 교육 과정과 연계된 시험에서 여러 모델과 인간 학생을 직접 비교하는 방법론적 진보, (3) 혼합 방법 분석을 통한 LLM 성능의 교육적 기반 평가라는 세 가지 기여를 한다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Elad Yacobson
Yael Schleifer
Ziva Bar-Dov
Journal of Science Education and Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Yacobson 등(Sat,)이 이 문제를 연구했다.
www.synapsesocial.com/papers/69c9c5a4f8fdd13afe0bd92c — DOI: https://doi.org/10.1007/s10956-026-10310-y
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: