Los puntos clave no están disponibles para este artículo en este momento.
Este artículo presenta SimCSE, un marco simple de aprendizaje contrastivo que avanza considerablemente el estado del arte en embeddings de oraciones. Primero describimos un enfoque no supervisado, que toma una oración de entrada y la predice a sí misma en un objetivo contrastivo, utilizando solo dropout estándar como ruido. Este método sencillo funciona sorprendentemente bien, rindiendo a la par con los métodos supervisados anteriores. Encontramos que el dropout actúa como una mínima augmentación de datos y que eliminarlo conduce a un colapso de la representación. Luego, proponemos un enfoque supervisado, que incorpora pares anotados de conjuntos de datos de inferencia de lenguaje natural en nuestro marco de aprendizaje contrastivo, usando pares de "entailment" como positivos y pares de "contradiction" como negativos difíciles. Evaluamos SimCSE en tareas estándar de similitud semántica textual (STS), y nuestros modelos no supervisado y supervisado usando BERT base alcanzan un promedio de 76.3% y 81.6% de correlación de Spearman respectivamente, una mejora de 4.2% y 2.2% comparado con los mejores resultados previos. También demostramos, tanto teórica como empíricamente, que el objetivo de aprendizaje contrastivo regulariza el espacio anisotrópico de embeddings preentrenados para ser más uniforme, y alinea mejor los pares positivos cuando señales supervisadas están disponibles.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tianyu Gao
Xingcheng Yao
Danqi Chen
Princeton University
Tsinghua University
Building similarity graph...
Analyzing shared references across papers
Loading...
Gao et al. (Fri,) estudiaron esta cuestión.
www.synapsesocial.com/papers/69dbaf2c387cf706986887b7 — DOI: https://doi.org/10.18653/v1/2021.emnlp-main.552
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: