표준 화학 시험에서 AI 벤치마킹: LLM은 여전히 고등학생에 비해 성능이 낮음 | Synapse