Key points are not available for this paper at this time.
Protokolle für skalierbare Aufsicht sollen es Menschen ermöglichen, übermenschliche KI genau zu beaufsichtigen. In diesem Papier untersuchen wir Debate, bei dem zwei KIs konkurrieren, um einen Richter zu überzeugen; Consultancy, bei dem eine einzelne KI versucht, einen fragenden Richter zu überzeugen; und vergleichen dies mit einer Basislinie der direkten Fragestellung, bei der der Richter direkt ohne KI antwortet. Wir verwenden große Sprachmodelle (LLMs) sowohl als KI-Agenten als auch als Stellvertreter für menschliche Richter, wobei die Richter-Modelle schwächer als die Agent-Modelle sind. Wir evaluieren eine Vielzahl von Asymmetrien zwischen Richtern und Agenten und erweitern frühere Arbeiten von einer einzigen extraktiven QA-Aufgabe mit Informationsasymmetrie auf auch Mathematik, Programmierung, Logik und multimodale Schlussfolgerungen. Wir stellen fest, dass Debate Consultancy über alle Aufgaben hinweg übertrifft, wenn der Consultant zufällig zugewiesen wird, für die richtige oder falsche Antwort zu argumentieren. Im Vergleich zu direkter Fragestellung hängen die Ergebnisse vom Aufgabentyp ab: Bei extraktiven QA-Aufgaben mit Informationsasymmetrie schneidet Debate besser ab, bei anderen Aufgaben ohne Informationsasymmetrie sind die Ergebnisse gemischt. Frühere Arbeiten wiesen Debattanten/Consultants eine Antwort zu, für die sie argumentieren sollten. Wenn wir ihnen erlauben, stattdessen zu wählen, für welche Antwort sie argumentieren, zeigen sich Richter bei Debate seltener vom falschen Argument überzeugt als bei Consultancy. Darüber hinaus stellen wir fest, dass stärkere Debattanten-Modelle die Richter-Genauigkeit erhöhen, allerdings weniger ausgeprägt als in früheren Studien.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zachary Kenton
Noah Y. Siegel
János Kramár
Building similarity graph...
Analyzing shared references across papers
Loading...
Kenton et al. (Fri,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e613c2b6db6435875a68fb — DOI: https://doi.org/10.48550/arxiv.2407.04622
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: