May 29, 2024Open Access

LLMs Encontro com Geração e Edição Multimodal: Uma Pesquisa

Key Points

Key points are not available for this paper at this time.

Abstract

Com o recente avanço em grandes modelos de linguagem (LLMs), há um interesse crescente em combinar LLMs com aprendizado multimodal. Pesquisas anteriores sobre grandes modelos de linguagem multimodal (MLLMs) concentram-se principalmente na compreensão. Esta pesquisa detalha a geração multimodal em diferentes domínios, incluindo imagem, vídeo, 3D e áudio, onde destacamos os avanços notáveis com trabalhos marcos nesses campos. Especificamente, investigamos exaustivamente os principais componentes técnicos por trás dos métodos e conjuntos de dados multimodais utilizados nesses estudos. Além disso, investigamos agentes multimodais aumentados por ferramentas que podem usar modelos generativos existentes para interação humano-computador. Por fim, discutimos de forma abrangente o avanço na segurança em IA e investigamos aplicações emergentes, bem como perspectivas futuras. Nosso trabalho fornece uma visão sistemática e perspicaz da geração multimodal, que se espera impulsionar o desenvolvimento de Inteligência Artificial para Conteúdo Generativo (AIGC) e modelos do mundo. Uma lista selecionada de todos os artigos relacionados pode ser encontrada em https://github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yingqing He

Zhaoyang Liu

Jingye Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LLMs Encontro com Geração e Edição Multimodal: Uma Pesquisa

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider