Key points are not available for this paper at this time.
Ao definir formalmente os processos de treinamento de grandes modelos de linguagem (LLMs), que geralmente abrangem pré-treinamento, ajuste fino supervisionado e aprendizado por reforço com feedback humano, dentro de um único e unificado paradigma de aprendizado de máquina, podemos extrair insights fundamentais para o avanço das tecnologias LLM. Este artigo de posicionamento delineia os paralelos entre os métodos de treinamento dos LLMs e as estratégias empregadas para o desenvolvimento de agentes em jogos para dois jogadores, conforme estudado na teoria dos jogos, aprendizado por reforço e sistemas multiagentes. Propomos uma reconceitualização dos processos de aprendizagem dos LLMs em termos de aprendizagem de agentes em jogos baseados em linguagem. Essa estrutura revela perspectivas inovadoras sobre os sucessos e desafios no desenvolvimento de LLMs, oferecendo uma nova compreensão para abordar questões de alinhamento entre outras considerações estratégicas. Além disso, nossa abordagem baseada em jogos para dois jogadores ilumina novas técnicas de preparação de dados e aprendizado de máquina para o treinamento de LLMs.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang Liu
Peng Sun
Hang Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu et al. (Mon,) estudaram esta questão.
www.synapsesocial.com/papers/68e79844b6db643587708c8d — DOI: https://doi.org/10.48550/arxiv.2402.08078
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: