Key points are not available for this paper at this time.
Com o recente avanço em grandes modelos de linguagem (LLMs), há um interesse crescente em combinar LLMs com aprendizado multimodal. Pesquisas anteriores sobre grandes modelos de linguagem multimodal (MLLMs) concentram-se principalmente na compreensão. Esta pesquisa detalha a geração multimodal em diferentes domínios, incluindo imagem, vídeo, 3D e áudio, onde destacamos os avanços notáveis com trabalhos marcos nesses campos. Especificamente, investigamos exaustivamente os principais componentes técnicos por trás dos métodos e conjuntos de dados multimodais utilizados nesses estudos. Além disso, investigamos agentes multimodais aumentados por ferramentas que podem usar modelos generativos existentes para interação humano-computador. Por fim, discutimos de forma abrangente o avanço na segurança em IA e investigamos aplicações emergentes, bem como perspectivas futuras. Nosso trabalho fornece uma visão sistemática e perspicaz da geração multimodal, que se espera impulsionar o desenvolvimento de Inteligência Artificial para Conteúdo Generativo (AIGC) e modelos do mundo. Uma lista selecionada de todos os artigos relacionados pode ser encontrada em https://github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation
Building similarity graph...
Analyzing shared references across papers
Loading...
Yingqing He
Zhaoyang Liu
Jingye Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
He et al. (Qua,) estudaram essa questão.
www.synapsesocial.com/papers/68e67e28b6db64358760815f — DOI: https://doi.org/10.48550/arxiv.2405.19334
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: