What type of study is this?

This is a Cohort Study study (also classified as: Quantitative Study).

October 15, 2025

풍자 데이터셋 품질 평가

Key Points

NewsHeadline 데이터셋은 0.93의 최고 F1-score를 달성하여 풍자 감지에 있어 뛰어난 품질을 입증했습니다.
데이터셋 평가에 사용된 모델에는 통계적 기계 학습, 딥 러닝, 전이 학습 접근법이 포함되었습니다.
클래스 불균형 문제를 해결하기 위해 모델 훈련 동안 오버샘플링과 언더샘플링 두 가지 재샘플링 기법을 적용했습니다.
미래의 풍자 인식 자연어 처리 시스템 연구를 지원하기 위해 정제된 Sarcasm-Quality 데이터셋을 출시했습니다.

Abstract

초록 인공지능(AI) 모델은 정확도를 유지하고 안전한 배치를 보장하기 위해 고품질 데이터에 의존합니다. 그러나 감정 분석(SA)에서 풍자의 존재는 본질적으로 모호하고 문맥에 의존하는 특성 때문에 고유한 도전을 제기하며, 모델 성능에 상당한 영향을 미칩니다. 이와 관련하여, 풍자 감지는 SA 정확도 향상에 중요한 역할을 합니다. 상당한 노력이 기울여졌지만, 대부분의 기존 풍자 감지 시스템은 부실하게 주석 처리된 데이터셋과 풍자적 언어의 본질적 복잡성 때문에 상당한 어려움에 직면하고 있습니다. 이를 해결하기 위해, 우리는 네 가지 뚜렷한 데이터셋—SARC, SemEval2022, NewsHeadline, Multimodal—에서 균일하게 파라미터화된 모델을 벤치마킹하여 풍자 데이터 품질을 평가합니다. 통계적 기계 학습, 딥 러닝, 전이 학습 모델을 포함하는 3단계 모델 계층과 텍스트 표현을 위한 TF-IDF 벡터화 및 단어 임베딩을 활용하여 광범위한 평가를 수행했습니다. 클래스 불균형과 불평등한 데이터 분포에서 오는 편향을 줄이기 위해, 실험 전에 오버샘플링과 언더샘플링 두 가지 재샘플링 기법을 적용했습니다. 우리의 결과는 NewsHeadline 데이터셋이 우수한 성능을 보여 RoBERTa가 0.93의 F1-score를 달성함을 나타냅니다. 이러한 통찰을 바탕으로, 미래 풍자 인식 NLP 시스템 연구를 진전시키기 위해 정제된 Sarcasm-Quality(SQ) 데이터셋을 컴파일하여 공개합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Girma Yohannis Bade

Olga Kolesnikova

José Luis Oropeza

Actions

Institutions

Instituto Politécnico Nacional

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

풍자 데이터셋 품질 평가

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider