LLM-como-Juez ha surgido como una alternativa escalable a la evaluación humana, permitiendo que los grandes modelos de lenguaje (LLMs) proporcionen señales de recompensa en entrenamientos. Mientras trabajos recientes han explorado extensiones multi-agente como el debate multi-agente y la metajudicación para mejorar la calidad de la evaluación, la cuestión de cómo se manifiestan los sesgos intrínsecos en estos entornos sigue siendo poco explorada. En este estudio, realizamos un análisis sistemático de cuatro tipos diversos de sesgos: sesgo de posición, sesgo de verbosidad, sesgo de cadena de pensamiento y sesgo de arrastre. Evaluamos estos sesgos en dos marcos de trabajo multi-agente LLM-como-Juez ampliamente adoptados: Debate Multi-Agente y LLM-como-Meta-Juez. Nuestros resultados muestran que el marco de debate amplifica los sesgos de manera pronunciada después del debate inicial, y este sesgo incrementado se mantiene en rondas posteriores, mientras que los enfoques meta-juez exhiben mayor resistencia. Además, investigamos la incorporación de PINE, un método líder de des sesgo para un solo agente, como agente libre de sesgos dentro de estos sistemas. Los resultados revelan que este agente libre de sesgos reduce eficazmente los sesgos en entornos de debate pero proporciona menos beneficio en escenarios de meta-juez. Nuestro trabajo ofrece un estudio integral del comportamiento del sesgo en sistemas multi-agente LLM-como-Juez y destaca la necesidad de estrategias específicas de mitigación de sesgos en entornos de evaluación colaborativa.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chiyu Ma
Evangelina Zhang
Yilun Zhao
Building similarity graph...
Analyzing shared references across papers
Loading...
Ma et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68f4b10d3d9d770bbc696d8b — DOI: https://doi.org/10.48550/arxiv.2505.19477