What question did this study set out to answer?

이 연구는 대형 언어 모델과 고등학생의 화학 시험 성과를 비교한다.

March 30, 2026Open Access

표준 화학 시험에서 AI 벤치마킹: LLM은 여전히 고등학생에 비해 성능이 낮음

Key Points

이 연구는 대형 언어 모델과 고등학생의 화학 시험 성과를 비교한다.
표준화된 객관식 화학 문제에 대해 세 가지 LLM을 평가했다.
LLM에게 어려운 문제 특성을 파악하기 위해 회귀 분석을 실시했다.
화학 교육 전문가와 함께 LLM 실패 문제를 분석했다.
LLM들은 139,000명 이상의 고등학생에 비해 성능이 크게 떨어졌다.
시각적 요소와 다단계 추론 과제가 LLM에게 어려운 것으로 나타났다.

Abstract

초록 대형 언어 모델(LLM)이 과학 교육에서 점점 더 널리 사용됨에 따라, 실제 학습 과제에 대해 인간 학습자와의 능력 차이를 이해하는 것이 중요하다. 이러한 이해는 AI에 강한 평가를 설계하고 학생들을 문제 해결에서 지도할 수 있는 AI 튜터를 개발하는 데 필수적이다. 표준화된 평가를 벤치마크로 사용하면 널리 받아들여지는 교육 기준에 기반한 비교가 가능하다. 지금까지 대부분의 교육 벤치마크는 영어로 개발 및 평가되었으며, 다른 언어는 상대적으로 적은 관심을 받아왔다. 본 연구는 국가 고등학교 화학 졸업시험을 기반으로 한 최초의 히브리어 과학 교육 벤치마크를 도입하여 이 공백을 메운다. 우리는 ChatGPT 4o, Claude 3.5 Sonnet, Gemini 1.5 Pro 세 가지 LLM을 120개의 객관식 문제에 대해 평가하고, 139,000명 이상의 고등학생 성적과 비교했다. 모든 세 LLM은 인간 학습자에 비해 유의미하게 낮은 성과를 보였다. LLM에게 더 어려운 문제 특징을 조사하기 위해 회귀 분석을 실시한 결과, 시각적 요소와 다단계 추론 과제가 성능에 부정적인 영향을 미친다는 점을 발견했다. 마지막으로 화학 교육 전문가들이 LLM이 가장 어려워한 문제를 분석하여 도메인별 실패 양상을 특성화했다. 이 연구는 (1) 언어적 맥락이 덜 다루어진 곳에서의 LLM 평가 확장, (2) 실제 국가 교육 과정과 연계된 시험에서 여러 모델과 인간 학생을 직접 비교하는 방법론적 진보, (3) 혼합 방법 분석을 통한 LLM 성능의 교육적 기반 평가라는 세 가지 기여를 한다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Elad Yacobson

Yael Schleifer

Ziva Bar-Dov

Journals

Journal of Science Education and Technology

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

표준 화학 시험에서 AI 벤치마킹: LLM은 여전히 고등학생에 비해 성능이 낮음

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider