April 28, 2009Open Access

결정 트리를 사용한 불완전 데이터 처리 기법의 실증적 비교

Key Points

Key points are not available for this paper at this time.

Abstract

불완전한 데이터가 학습 및 분류 정확도에 미치는 영향에 대한 인식이 높아지면서 다양한 결측 데이터 처리 기법이 늘어났습니다. 본 논문은 결측 데이터의 비율과 메커니즘 등 다양한 패턴에서 훈련 및 테스트 데이터의 불완전성을 견디는 7가지 인기 기법의 강인성과 정확성을 조사합니다. 7가지 결측 데이터 기법은 캘리포니아 대학교 어바인 기계학습 데이터베이스(Blake and Merz, 1998)에서 얻은 완전한 21개 데이터셋(즉, 결측치가 없는 데이터셋)을 사용해 인위적으로 다양한 비율, 패턴, 메커니즘의 결측 데이터를 시뮬레이션하여 비교했습니다. 4요인 반복 측정 설계를 통해 데이터를 분석했습니다. 시뮬레이션 결과 중요한 차이점이 나타났으며 모든 방법에는 장단점이 있었습니다. 그러나 목록 삭제법(listwise deletion)은 다른 6가지 기법에 비해 현저히 열등하며, 기대 최대화 알고리즘을 활용한 다중 대체법(multiple imputation)이 불완전 데이터를 처리하는 우수한 방법임을 보여줍니다. 결정 트리 단일 대체법과 대체 변수 분할법은 결측치가 모든 속성에 분포될 때 단일 속성에만 있을 때보다 더 심각한 영향을 받습니다. 그렇지 않으면 모델 기반 대체법 대비 대체법은 상당히 양호한 결과를 보였으나 약간의 차이가 남았습니다. 결정 트리 사용 시 결측치를 다루는 다양한 기법은 상당히 다른 결과를 초래할 수 있으므로, 편향 및 허위 발견을 방지하기 위해 신중히 고려해야 합니다. 데이터에 결측치가 많을 경우 반드시 다중 대체법을 사용해야 하며, 결측치가 적으면 어떤 기법도 고려할 수 있습니다. 기법 선택은 결측 데이터의 비율, 패턴, 메커니즘, 특히 후자 두 가지에 의해 결정되어야 합니다. 하지만 다중 대체법 및 감독 학습 대체법과 같은 더 진보된 기법의 접근성과 사용 용이성을 고려하면, 목록 삭제법이나 평균 또는 최빈값 단일 대체법과 같은 고전적 기법 사용은 더 이상 정당화되지 않습니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Bhekisipho Twala

Journals

Applied Artificial Intelligence

Actions

Institutions

Council of Scientific and Industrial Research

Canadian Society of Intestinal Research

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

결정 트리를 사용한 불완전 데이터 처리 기법의 실증적 비교

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider