Key points are not available for this paper at this time.
Em cenários colaborativos orientados a objetivos, os participantes não estão apenas interessados em alcançar um resultado bem-sucedido, mas também negociam implicitamente o esforço que empregam na interação (adaptando-se mutuamente). Neste trabalho, propomos um jogo de referência interativo desafiador que requer que dois jogadores coordenem observações visuais e linguísticas. O sinal de aprendizado neste jogo é um escore (dado após jogar) que considera o objetivo alcançado e os esforços assumidos pelos jogadores durante a interação. Demonstramos que uma configuração padrão de Proximal Policy Optimization (PPO) alcança uma alta taxa de sucesso quando inicializada com comportamentos heurísticos de parceiros que implementam insights da análise de interações humanas. Também constatamos que o pareamento de parceiros neurais de fato reduz o esforço conjunto medido ao jogarem repetidamente juntos. Contudo, observamos que, em comparação com um pareamento heurístico razoável, ainda há espaço para melhorias — o que convida a pesquisas adicionais na direção do compartilhamento de custos em interações colaborativas.
Building similarity graph...
Analyzing shared references across papers
Loading...
Philipp Sadler
Sherzod Hakimov
David Schlangen
Building similarity graph...
Analyzing shared references across papers
Loading...
Sadler et al. (Tue,) estudaram essa questão.
www.synapsesocial.com/papers/68e7263ab6db64358769facb — DOI: https://doi.org/10.48550/arxiv.2403.17497
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: