January 10, 2022Open Access

Segmentação Semântica Guiada por Linguagem

Key Points

Key points are not available for this paper at this time.

Abstract

Apresentamos o LSeg, um modelo inovador para segmentação semântica de imagens guiada por linguagem. O LSeg utiliza um codificador de texto para calcular embeddings de rótulos descritivos de entrada (por exemplo, "grama" ou "prédio") em conjunto com um codificador de imagens baseado em transformer que calcula embeddings densos por pixel da imagem de entrada. O codificador de imagens é treinado com um objetivo contrastivo para alinhar os embeddings dos pixels ao embedding de texto da classe semântica correspondente. Os embeddings de texto fornecem uma representação flexível dos rótulos, na qual rótulos semanticamente similares mapeiam para regiões similares no espaço de embedding (por exemplo, "gato" e "peludo"). Isso permite que o LSeg generalize para categorias previamente não vistas durante o teste, sem necessidade de retreinamento ou mesmo de uma única amostra extra de treinamento. Demonstramos que nossa abordagem alcança desempenho zero-shot altamente competitivo em comparação com métodos existentes de segmentação semântica zero-shot e few-shot, e até iguala a precisão de algoritmos tradicionais de segmentação quando um conjunto fixo de rótulos é fornecido. Código e demonstração estão disponíveis em https://github.com/isl-org/lang-seg.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Boyi Li

Kilian Q. Weinberger

Serge Belongie

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Segmentação Semântica Guiada por Linguagem

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study