May 26, 2024Open Access

Desenredando e Integrando Información Relacional y Sensorial en Arquitecturas Transformer

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La arquitectura Transformer procesa secuencias mediante la implementación de una forma de intercambio neural de mensajes que consiste en la recuperación iterativa de información (atención), seguida de un procesamiento local (MLP posicional). Dos tipos de información son esenciales bajo este paradigma computacional general: información "sensorial" sobre objetos individuales, e información "relacional" que describe las relaciones entre objetos. La atención estándar codifica naturalmente la primera, pero no codifica explícitamente la segunda. En este artículo, presentamos una extensión de Transformers donde la atención multi-cabeza se aumenta con dos tipos distintos de cabezas de atención, cada una enruta información de un tipo diferente. El primer tipo es el mecanismo de atención estándar de Transformers, que captura características a nivel de objeto, mientras que el segundo tipo es un nuevo mecanismo de atención que proponemos para capturar explícitamente información relacional. Los dos tipos de cabezas de atención poseen diferentes sesgos inductivos, otorgando a la arquitectura resultante mayor eficiencia y versatilidad. La promesa de este enfoque se demuestra empíricamente en una variedad de tareas.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Awni Altabaa

John Lafferty

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Desenredando e Integrando Información Relacional y Sensorial en Arquitecturas Transformer

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider