Key points are not available for this paper at this time.
En définissant formellement les processus d'entraînement des grands modèles de langage (LLMs), qui incluent généralement le pré-entraînement, l'affinage supervisé et l'apprentissage par renforcement avec retour humain, dans un paradigme unifié d'apprentissage automatique, nous pouvons obtenir des perspectives clés pour faire progresser les technologies LLM. Cet article de position décrit les parallèles entre les méthodes d'entraînement des LLM et les stratégies utilisées pour le développement d'agents dans les jeux à deux joueurs, telles qu'étudiées en théorie des jeux, apprentissage par renforcement et systèmes multi-agents. Nous proposons une re-conceptualisation des processus d'apprentissage des LLM en termes d'apprentissage d'agents dans des jeux basés sur le langage. Ce cadre révèle des perspectives innovantes sur les succès et défis dans le développement des LLM, offrant une nouvelle compréhension pour aborder les problèmes d'alignement parmi d'autres considérations stratégiques. De plus, notre approche par jeu à deux joueurs éclaire de nouvelles techniques de préparation de données et d'apprentissage automatique pour l'entraînement des LLM.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang Liu
Peng Sun
Hang Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/68e79844b6db643587708c8d — DOI: https://doi.org/10.48550/arxiv.2402.08078