디지털 플랫폼의 확산과 함께 소비자 리뷰는 경영 의사결정을 위한 중요한 비정형 데이터 자원으로 자리 잡았다. 토픽모델링은 이러한 데이터로부터 잠재적 서비스 속성을 추출하는 데 널리 활용되어 왔으나, 경영학 분야에서의 모델 평가는 주로 퍼플렉서티(perplexity), 코히어런스(coherence), 계산 효율성과 같은 자동화 지표에 의존해 왔다. 그러나 이러한 지표들은 통계적 적합도를 측정할 수는 있지만, 추출된 토픽이 소비자의 실제 경험 인식과 얼마나 정합적인지는 충분히 반영하지 못한다. 본 연구는 확률적 생성모형(LDA), 트랜스포머 기반 임베딩–클러스터링 모형(BERTopic), 대규모 언어모델(LLM) 프롬프트 기반 모형(GPT)의 세 가지 접근법의 타당성을 평가한다. Yelp Open Dataset에서 추출한 1,000개의 소비자 리뷰를 활용하여 문장 단위 토픽 할당 프레임워크를 구축하고, 2단계 인간 기준(human-referenced) 검증 설계를 적용하였다. 평가는 모델 간 토픽 적합성, 모델 내 할당 정확성, 이상치 처리 일관성, 평가자 간 신뢰도를 중심으로 수행되었다. 또한 외적 타당성 검증을 위해 토픽 지표와 소비자 만족도 (별점)를 연결한 순서형 로짓 회귀분석을 실시하였다. 분석 결과, GPT 기반 모델은 인간의 해석 논리와 가장 높은 정합성을 보이는 토픽 라벨을 생성하는 것으로 나타났다. 반면 BERTopic은 토픽 할당 안정성과 이상치 처리측면에서 가장 균형 잡힌 성과를 보였다. LDA는 해석 가능한 기초 구조를 제공하였으나 단문 환경에서는 한계를 보였다. 회귀분석 결과, 임베딩 기반 모델에서 도출된 토픽 구조는 소비자 만족도와 유의한 관련성을 가지는 것으로 확인되었다. 본 연구는 통계적 적합도를 넘어 해석 가능성, 신뢰성, 경영적 활용 가능성을 함께 고려하는 토픽모델링 검증 프레임워크를 제시한다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kim et al. (Tue,) studied this question.
www.synapsesocial.com/papers/69e470e9010ef96374d8d9bc — DOI: https://doi.org/10.18032/kaaba.2026.39.3.627
Da-Yeon Kim
Radithya Chaidir
Tae Ho Song
The Korean Academic Association of Business Administration
Building similarity graph...
Analyzing shared references across papers
Loading...