What type of study is this?

This is a Cohort Study study (also classified as: Quantitative Study, Experimental Study).

October 20, 2025Open Access

Treinando Agentes Dentro de Modelos Mundiais Escaláveis

Key Points

Dreamer 4 aprende a obter diamantes no Minecraft puramente a partir de dados offline, demonstrando capacidades inovadoras.
O modelo mundial prevê interações de objetos no Minecraft com grande precisão, superando significativamente modelos anteriores.
Inferência interativa em tempo real é alcançada por meio de uma arquitetura transformadora eficiente em uma única GPU.
O agente aprende condicionamento geral de ações a partir de um pequeno conjunto de dados, enfatizando a utilidade de vídeos diversos e não rotulados.

Abstract

Modelos mundiais aprendem conhecimento geral a partir de vídeos e simulam experiências para treinar comportamentos na imaginação, oferecendo um caminho para agentes inteligentes. No entanto, modelos mundiais anteriores não foram capazes de prever com precisão as interações de objetos em ambientes complexos. Apresentamos o Dreamer 4, um agente escalável que aprende a resolver tarefas de controle por meio de aprendizado por reforço dentro de um modelo mundial rápido e preciso. No complexo videogame Minecraft, o modelo mundial prevê com precisão as interações de objetos e a mecânica do jogo, superando modelos mundiais anteriores por uma margem ampla. O modelo mundial alcança inferência interativa em tempo real em uma única GPU por meio de um objetivo de atalho forçado e uma arquitetura transformadora eficiente. Além disso, o modelo mundial aprende condicionamento geral de ações com apenas uma pequena quantidade de dados, permitindo extrair a maior parte de seu conhecimento de vídeos diversos e não rotulados. Propomos o desafio de obter diamantes no Minecraft usando apenas dados offline, alinhado às aplicações práticas como robótica, onde aprender pela interação com o ambiente pode ser inseguro e lento. Essa tarefa requer escolher sequências de mais de 20.000 ações de mouse e teclado a partir de pixels brutos. Ao aprender comportamentos na imaginação, o Dreamer 4 é o primeiro agente a obter diamantes no Minecraft puramente a partir de dados offline, sem interação com o ambiente. Nosso trabalho fornece uma receita escalável para treinamento por imaginação, marcando um passo rumo a agentes inteligentes.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Danijar Hafner

Wilson Yan

Timothy Lillicrap

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Treinando Agentes Dentro de Modelos Mundiais Escaláveis

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider