Key points are not available for this paper at this time.
Apresentamos o LSeg, um modelo inovador para segmentação semântica de imagens guiada por linguagem. O LSeg utiliza um codificador de texto para calcular embeddings de rótulos descritivos de entrada (por exemplo, "grama" ou "prédio") em conjunto com um codificador de imagens baseado em transformer que calcula embeddings densos por pixel da imagem de entrada. O codificador de imagens é treinado com um objetivo contrastivo para alinhar os embeddings dos pixels ao embedding de texto da classe semântica correspondente. Os embeddings de texto fornecem uma representação flexível dos rótulos, na qual rótulos semanticamente similares mapeiam para regiões similares no espaço de embedding (por exemplo, "gato" e "peludo"). Isso permite que o LSeg generalize para categorias previamente não vistas durante o teste, sem necessidade de retreinamento ou mesmo de uma única amostra extra de treinamento. Demonstramos que nossa abordagem alcança desempenho zero-shot altamente competitivo em comparação com métodos existentes de segmentação semântica zero-shot e few-shot, e até iguala a precisão de algoritmos tradicionais de segmentação quando um conjunto fixo de rótulos é fornecido. Código e demonstração estão disponíveis em https://github.com/isl-org/lang-seg.
Building similarity graph...
Analyzing shared references across papers
Loading...
Boyi Li
Kilian Q. Weinberger
Serge Belongie
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Mon,) estudaram esta questão.
www.synapsesocial.com/papers/69dcafae89c4deb67d35957c — DOI: https://doi.org/10.48550/arxiv.2201.03546