초록 인공지능(AI) 모델은 정확도를 유지하고 안전한 배치를 보장하기 위해 고품질 데이터에 의존합니다. 그러나 감정 분석(SA)에서 풍자의 존재는 본질적으로 모호하고 문맥에 의존하는 특성 때문에 고유한 도전을 제기하며, 모델 성능에 상당한 영향을 미칩니다. 이와 관련하여, 풍자 감지는 SA 정확도 향상에 중요한 역할을 합니다. 상당한 노력이 기울여졌지만, 대부분의 기존 풍자 감지 시스템은 부실하게 주석 처리된 데이터셋과 풍자적 언어의 본질적 복잡성 때문에 상당한 어려움에 직면하고 있습니다. 이를 해결하기 위해, 우리는 네 가지 뚜렷한 데이터셋—SARC, SemEval2022, NewsHeadline, Multimodal—에서 균일하게 파라미터화된 모델을 벤치마킹하여 풍자 데이터 품질을 평가합니다. 통계적 기계 학습, 딥 러닝, 전이 학습 모델을 포함하는 3단계 모델 계층과 텍스트 표현을 위한 TF-IDF 벡터화 및 단어 임베딩을 활용하여 광범위한 평가를 수행했습니다. 클래스 불균형과 불평등한 데이터 분포에서 오는 편향을 줄이기 위해, 실험 전에 오버샘플링과 언더샘플링 두 가지 재샘플링 기법을 적용했습니다. 우리의 결과는 NewsHeadline 데이터셋이 우수한 성능을 보여 RoBERTa가 0.93의 F1-score를 달성함을 나타냅니다. 이러한 통찰을 바탕으로, 미래 풍자 인식 NLP 시스템 연구를 진전시키기 위해 정제된 Sarcasm-Quality(SQ) 데이터셋을 컴파일하여 공개합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Girma Yohannis Bade
Olga Kolesnikova
José Luis Oropeza
Instituto Politécnico Nacional
Building similarity graph...
Analyzing shared references across papers
Loading...
Bade et al. (Mon,) 이 연구를 수행했습니다.
www.synapsesocial.com/papers/68f01110f081da0584b56a1a — DOI: https://doi.org/10.21203/rs.3.rs-7541663/v1
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: