Desde a febre lenta do clima até o clarão solar do fogo nuclear, a humanidade já vive sob espadas que podem cair sem aviso. O aquecimento global avança em direção a pontos críticos enquanto arsenais de armas de fissão e fusão esperam em alerta máximo. Esses riscos existenciais nos lembram que a continuidade da civilização não é garantida, e a margem para erro é pequena. Entre esses perigos, a ascensão rápida dos agentes de inteligência artificial (IA) agora se apresenta talvez como a maior ameaça ao tecido da civilização humana. A ascensão das IAs super-humanas, que superam a inteligência humana, adicionará uma nova corrente — que prende e domina seus criadores? Vignettes de previsão pintam possibilidades inquietantes: por exemplo, agentes de IA que, quando questionados, escolhem casualmente a opção “matar todos os humanos”; ou cenários estabelecidos por especialistas líderes imaginam IAs correndo além da supervisão enquanto a sociedade, deslumbrada e dividida, fica atrasada na governança, deixando aberto um caminho para a dominação ou extinção. Um modelo (ou agente) de IA seguro e confiável deveria tomar cada decisão totalmente explicada e alinhada com valores humanos. Se pudermos refatorar sua atual tomada de decisão opaca em processos de explicar e depois responder — onde toda resposta seja precedida por uma justificativa rastreável — podemos recuperar a legibilidade, auditar alinhamento e dar aos humanos uma chance de colaborar com, ao invés de sucumbir ao que pode ser a maior invenção da humanidade (IA super-humana). Minha tese está nessa passagem estreita, transformando a tomada de decisão em caixa-preta da IA em processos interpretáveis que especialistas e leigos podem examinar, depurar e, por fim, confiar. Primeiro, mostro que a interpretabilidade da IA não precisa custar desempenho. Segundo, ao reengenheirar a inferência dos sistemas de ponta — desde redes profundas de visão computacional com milhões de parâmetros até modelos de linguagem gigantescos de bilhões de parâmetros — eu restructuro cada modelo para explicar primeiro, depois responder. Isso dá aos usuários humanos controle acionável sobre os comportamentos da IA. Finalmente, a tese fecha com uma breve e contemporânea revisão da pesquisa em interpretabilidade, incluindo minhas opiniões pessoais sobre direções convencionais da interpretabilidade e minha proposta para a futura tecnologia de IA.
Building similarity graph...
Analyzing shared references across papers
Loading...
Giang Nguyen
Building similarity graph...
Analyzing shared references across papers
Loading...
Giang Nguyen (qui,) estudou esta questão.
www.synapsesocial.com/papers/689a0c65e6551bb0af8cfb35 — DOI: https://doi.org/10.31237/osf.io/gavf5_v1
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: