Este estudio investiga las capacidades de razonamiento moral de los grandes modelos de lenguaje (LLMs), centrándose en sesgos y en la medida en que las respuestas reflejan patrones de los datos de entrenamiento en lugar de un razonamiento genuino. Usando el Moral Competence Test (MCT) y el Moral Foundations Questionnaire (MFQ), comparamos respuestas de participantes humanos y chatbots basados en LLM como ChatGPT. Los resultados del MCT muestran que los humanos superan consistentemente a los LLMs, indicando una mayor competencia moral. Las respuestas del MFQ de los LLM enfatizan daño/cuidado y justicia/reciprocidad, pero subrepresentan lealtad, autoridad y pureza. Este patrón sugiere un efecto de proporcionalidad de datos, donde el énfasis moral refleja la prevalencia de ciertos valores en los datos de entrenamiento. Además, métodos de ajuste fino como el aprendizaje por refuerzo con retroalimentación humana pueden amplificar normas morales específicas. Estos desequilibrios podrían moldear inadvertidamente las intuiciones morales de los usuarios y las normas sociales cuando los LLMs se despliegan ampliamente. Nuestros hallazgos subrayan la necesidad de auditorías y alineamiento continuos para asegurar que los LLMs proporcionen orientaciones éticamente equilibradas y socialmente responsables en aplicaciones moralmente sensibles.
Building similarity graph...
Analyzing shared references across papers
Loading...
S. D. Bajpai
Ahmed Sameer
Rabiya Fatima
Journal of Media Ethics
Indian Institute of Technology Dhanbad
Building similarity graph...
Analyzing shared references across papers
Loading...
Bajpai et al. (Tue,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68d454d831b076d99fa5aad4 — DOI: https://doi.org/10.1080/23736992.2025.2553146