Key points are not available for this paper at this time.
Os humanos utilizam seu olhar para se concentrar em informações essenciais enquanto percebem e interpretam intenções em vídeos. Incorporar o olhar humano em algoritmos computacionais pode melhorar significativamente o desempenho do modelo em tarefas de compreensão de vídeo. Neste trabalho, abordamos uma tarefa desafiadora e inovadora na compreensão de vídeos: prever as ações de um agente em um vídeo com base em um vídeo parcial. Introduzimos o algoritmo de Antecipação de Ação Guiada pelo Olhar, que estabelece um gráfico visual-semântico a partir da entrada do vídeo. Nosso método utiliza uma Rede Neural Gráfica para reconhecer a intenção do agente e prever a sequência de ações para cumprir essa intenção. Para avaliar a eficiência de nossa abordagem, coletamos um conjunto de dados contendo atividades domésticas geradas no ambiente VirtualHome, acompanhadas por dados de olhar humano durante a visualização dos vídeos. Nosso método supera técnicas de última geração, alcançando uma melhoria de 7% na precisão para reconhecimento de intenção em 18 classes. Isso destaca a eficiência de nosso método em aprender características importantes a partir dos dados de olhar humano.
Building similarity graph...
Analyzing shared references across papers
Loading...
Süleyman Özdel
Yao Rong
Berat Mert Albaba
Massachusetts Institute of Technology
ETH Zurich
Technical University of Munich
Building similarity graph...
Analyzing shared references across papers
Loading...
Özdel et al. (sex,) estudaram esta questão.
www.synapsesocial.com/papers/68e67624b6db6435876006f2 — DOI: https://doi.org/10.1145/3649902.3653340
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: