What question did this study set out to answer?

O objetivo é melhorar a confiabilidade dos sistemas de IA, tornando-os confiáveis e precisos em aplicações do mundo real.

April 12, 2026Open Access

Ensine a IA o que ela não sabe

Key Points

O objetivo é melhorar a confiabilidade dos sistemas de IA, tornando-os confiáveis e precisos em aplicações do mundo real.
Desenvolveu algoritmos para aprendizado consciente do desconhecido com mínima intervenção humana.
Introduziu geração automática de outliers e regularização de fronteiras de decisão.
Estabeleceu métodos para aproveitar dados não rotulados para detecção OOD e generalização.
Projetou estruturas para detectar alucinações e defender contra prompts maliciosos em modelos de IA.
Alcançou desempenho de ponta na detecção OOD sob diversas condições.
Aprimorou a interpretabilidade e a confiabilidade na tomada de decisão dos sistemas de IA.
Forneceu garantias teóricas para as estruturas de confiabilidade desenvolvidas.

Abstract

Sistemas de IA abstrata estão rapidamente passando de demonstrações laboratoriais para tecnologias de tomada de decisão implantadas em domínios de alto risco. No entanto, a confiabilidade continua sendo um obstáculo principal para a adoção responsável: modelos discriminativos podem estar confidentemente errados sob entradas fora da distribuição (OOD), e modelos fundamentais (FMs), como grandes modelos de linguagem (LLMs), podem gerar saídas fluentes, mas falsas, prejudiciais ou desalinhadas. Minha pesquisa desenvolve os fundamentos do aprendizado de máquina confiável com supervisão humana mínima, unificando algoritmos e teoria que fazem da confiabilidade um objetivo de primeira classe ao lado da precisão. Avanço o aprendizado consciente do desconhecido por meio da geração automatizada de outliers, introduzindo estruturas de síntese em espaço de características e de entradas que regularizam as fronteiras de decisão e melhoram a interpretabilidade. Além disso, estabeleço métodos principiais para aprender “in the wild” aproveitando dados de implantação não rotulados sob modelos de mistura e contaminação, com garantias teóricas e desempenho de ponta para detecção OOD e generalização sob mudanças diversas. Por fim, projeto estruturas de confiabilidade para FMs explorando sinais não rotulados para detectar alucinações, defender contra prompts maliciosos em modelos de visão-linguagem e remover ruído de dados de preferência ruidosos para um alinhamento mais confiável. Coletivamente, essas contribuições fornecem um kit de ferramentas coeso para implantar sistemas de IA que permanecem precisos, calibrados e confiáveis em ambientes de mundo aberto.

Ensine a IA o que ela não sabe

Key Points

Abstract

Cite This Study