January 1, 2021Open Access

SimCSE: 문장 임베딩의 간단한 대조학습

Key Points

Key points are not available for this paper at this time.

Abstract

이 논문은 최신 문장 임베딩 기술을 크게 발전시킨 간단한 대조학습 프레임워크인 SimCSE를 소개합니다. 먼저 입력 문장을 받아 이를 대조 목적 함수로 자기 자신을 예측하는 비지도 학습 방식을 설명하며, 여기서 표준 드롭아웃만이 노이즈로 사용됩니다. 이 간단한 방법은 예상외로 우수하게 작동하여 이전의 지도학습 방법과 비슷한 성능을 보입니다. 우리는 드롭아웃이 최소한의 데이터 증강 역할을 하며 이를 제거하면 표현 붕괴가 발생함을 발견했습니다. 그 다음, 자연어 추론 데이터셋의 주석된 문장 쌍을 대조학습 프레임워크에 통합하는 지도학습 방식을 제안하며, "entailment" 쌍을 긍정 예제로, "contradiction" 쌍을 어려운 부정 예제로 사용합니다. 우리는 SimCSE를 표준 의미론적 텍스트 유사성(STS) 과제에서 평가하였으며, BERT base를 사용하는 비지도 및 지도 모델이 각각 76.3%와 81.6%의 스피어만 상관계수를 기록하여 이전 최고 결과 대비 4.2%, 2.2% 향상시켰습니다. 또한 이론적 및 경험적으로 대조학습 목적 함수가 사전 학습된 임베딩의 이방성 공간을 더 균일하게 규제하고, 지도 신호가 있을 때 긍정 쌍을 더 잘 정렬함을 보여줍니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tianyu Gao

Xingcheng Yao

Danqi Chen

Actions

Institutions

Princeton University

Tsinghua University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

SimCSE: 문장 임베딩의 간단한 대조학습

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider