Key points are not available for this paper at this time.
Große Sprachmodelle (LLMs) zeigen ihre leistungsstarke Fähigkeit zu automatischem Schließen und Planen mit einem reichen semantischen Wissensfundus über die menschliche Welt. Dennoch behindert das Verankerungsproblem weiterhin die Anwendung von LLMs in realen Umgebungen. Bestehende Studien versuchen, das LLM feinzujustieren oder vorgegebene Verhaltens-APIs zu nutzen, um die Verbindung zwischen LLMs und der Umgebung herzustellen, was nicht nur enorme menschliche Anstrengungen zur Anpassung für jede einzelne Aufgabe kostet, sondern auch die Generalisierungsfähigkeit der LLMs einschränkt. Um das LLM autonom in die Umgebung einzubetten, schlagen wir den Hypothesis, Verification, and Induction (HYVIN)-Rahmen vor, der das LLM automatisch und schrittweise mit selbstgesteuertem Skill-Learning verankert. HYVIN verwendet zunächst das LLM, um Hypothesen zu Teilzielen zur Erreichung von Aufgaben zu erstellen und überprüft dann die Machbarkeit dieser Hypothesen durch Interaktion mit der zugrunde liegenden Umgebung. Nach der Verifikation kann HYVIN generalisierte Skills mit Anleitung dieser erfolgreich verankerten Teilziele erlernen. Diese Skills können anschließend genutzt werden, um komplexere Aufgaben zu bewältigen, die die Verifikationsphase nicht bestehen. Validiert im bekannten Instruktionsfolgenden Aufgaben-Set BabyAI erzielt HYVIN vergleichbare Leistungen in den anspruchsvollsten Aufgaben im Vergleich zu Imitationslernmethoden, die Millionen von Demonstrationen benötigen, was die Effektivität der erlernten Fähigkeiten beweist und die Umsetzbarkeit und Effizienz unseres Frameworks zeigt.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shaohui Peng
Xing Hu
Qi Yi
Chinese Academy of Sciences
University of Science and Technology of China
Institute of Computing Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Peng et al. (Sun,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e72a6ab6db6435876a3d36 — DOI: https://doi.org/10.1609/aaai.v38i13.29376