Key points are not available for this paper at this time.
이 글에서는 한 학습 알고리즘이 특정 학습 작업에서 다른 알고리즘보다 뛰어난지 판단하기 위한 다섯 가지 근사 통계 검정을 검토한다. 이러한 검정들은 차이가 없는데도 차이를 잘못 검출하는 확률(제1종 오류)을 실험적으로 비교하였다. 두 가지 널리 사용되는 통계 검정은 특정 상황에서 제1종 오류 확률이 높아 사용해서는 안 되는 것으로 나타났다: 두 비율 차이 검정과 여러 무작위 훈련-테스트 분할에 기반한 대응 표본 t 검정. 세 번째 검정은 10겹 교차 검증에 기반한 대응 표본 t 검정으로 다소 높아진 제1종 오류 확률을 보인다. 네 번째 검정인 McNemar 검정은 낮은 제1종 오류율을 나타낸다. 다섯 번째 검정은 2겹 교차 검증을 5회 반복하는 새로운 검정인 5 x 2 cv 검정이다. 실험 결과 이 검정도 허용 가능한 제1종 오류율을 보였다. 또한 이 글에서는 이들 검정의 검정력(실제로 차이가 있을 때 차이를 감지하는 능력)도 측정했다. 교차 검증 기반 t 검정이 가장 강력하며, 5 x 2 cv 검정은 McNemar 검정보다 약간 더 강력한 것으로 나타났다. 최적 검정 선택은 학습 알고리즘 실행 비용에 따라 결정된다. 알고리즘이 단 한 번만 실행할 수 있다면 McNemar 검정이 허용 가능한 제1종 오류를 가진 유일한 검정이다. 알고리즘이 10회 실행 가능하면 5 x 2 cv 검정을 권장하는데, 이는 약간 더 강력하며 훈련 세트 선택에 따른 변동을 직접 측정하기 때문이다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Thomas G. Dietterich
Neural Computation
Oregon State University
Building similarity graph...
Analyzing shared references across papers
Loading...
Thomas G. Dietterich(목요일)이 이 문제를 연구했다.
www.synapsesocial.com/papers/6907c20c400a54822bc4834d — DOI: https://doi.org/10.1162/089976698300017197
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: