August 21, 2024Open Access

Alinhamento forte e fraco de grandes modelos de linguagem com valores humanos

Key Points

Key points are not available for this paper at this time.

Abstract

Minimizar os impactos negativos dos sistemas de Inteligência Artificial (IA) nas sociedades humanas sem supervisão humana requer que eles sejam capazes de alinhar-se com os valores humanos. No entanto, a maioria dos trabalhos atuais aborda essa questão apenas do ponto de vista técnico, por exemplo, melhorando métodos atuais que dependem do aprendizado por reforço a partir de feedback humano, negligenciando o que significa e o que é necessário para que o alinhamento ocorra. Aqui, propomos distinguir alinhamento forte e fraco de valores. O alinhamento forte requer habilidades cognitivas (seja semelhantes às humanas ou diferentes delas), como compreender e raciocinar sobre as intenções dos agentes e sua capacidade de produzir causalmente efeitos desejados. Argumentamos que isso é necessário para que sistemas de IA, como grandes modelos de linguagem (LLMs), possam reconhecer situações que apresentam risco de que valores humanos sejam violados. Para ilustrar essa distinção, apresentamos uma série de prompts mostrando falhas do ChatGPT, Gemini e Copilot em reconhecer algumas dessas situações. Além disso, analisamos word embeddings para mostrar que os vizinhos mais próximos de alguns valores humanos nos LLMs diferem das representações semânticas humanas. Em seguida, propomos um novo experimento mental que chamamos de "a sala chinesa com um dicionário de transição de palavras", em extensão da proposta famosa de John Searle. Finalmente, mencionamos direções promissoras de pesquisa atual rumo a um alinhamento fraco, que poderia produzir respostas estatisticamente satisfatórias em várias situações comuns, entretanto até agora sem garantir qualquer valor de verdade.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Mehdi Khamassi

Marceau Nahon

Raja Chatila

Journals

Scientific Reports

Actions

Institutions

Sorbonne Université

Institut Systèmes Intelligents et de Robotique

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Alinhamento forte e fraco de grandes modelos de linguagem com valores humanos

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider