July 5, 2024Open Access

Über skalierbare Aufsicht mit schwachen LLMs, die starke LLMs beurteilen

Key Points

Key points are not available for this paper at this time.

Abstract

Protokolle für skalierbare Aufsicht sollen es Menschen ermöglichen, übermenschliche KI genau zu beaufsichtigen. In diesem Papier untersuchen wir Debate, bei dem zwei KIs konkurrieren, um einen Richter zu überzeugen; Consultancy, bei dem eine einzelne KI versucht, einen fragenden Richter zu überzeugen; und vergleichen dies mit einer Basislinie der direkten Fragestellung, bei der der Richter direkt ohne KI antwortet. Wir verwenden große Sprachmodelle (LLMs) sowohl als KI-Agenten als auch als Stellvertreter für menschliche Richter, wobei die Richter-Modelle schwächer als die Agent-Modelle sind. Wir evaluieren eine Vielzahl von Asymmetrien zwischen Richtern und Agenten und erweitern frühere Arbeiten von einer einzigen extraktiven QA-Aufgabe mit Informationsasymmetrie auf auch Mathematik, Programmierung, Logik und multimodale Schlussfolgerungen. Wir stellen fest, dass Debate Consultancy über alle Aufgaben hinweg übertrifft, wenn der Consultant zufällig zugewiesen wird, für die richtige oder falsche Antwort zu argumentieren. Im Vergleich zu direkter Fragestellung hängen die Ergebnisse vom Aufgabentyp ab: Bei extraktiven QA-Aufgaben mit Informationsasymmetrie schneidet Debate besser ab, bei anderen Aufgaben ohne Informationsasymmetrie sind die Ergebnisse gemischt. Frühere Arbeiten wiesen Debattanten/Consultants eine Antwort zu, für die sie argumentieren sollten. Wenn wir ihnen erlauben, stattdessen zu wählen, für welche Antwort sie argumentieren, zeigen sich Richter bei Debate seltener vom falschen Argument überzeugt als bei Consultancy. Darüber hinaus stellen wir fest, dass stärkere Debattanten-Modelle die Richter-Genauigkeit erhöhen, allerdings weniger ausgeprägt als in früheren Studien.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zachary Kenton

Noah Y. Siegel

János Kramár

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Über skalierbare Aufsicht mit schwachen LLMs, die starke LLMs beurteilen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider