Sistemas de IA abstrata estão rapidamente passando de demonstrações laboratoriais para tecnologias de tomada de decisão implantadas em domínios de alto risco. No entanto, a confiabilidade continua sendo um obstáculo principal para a adoção responsável: modelos discriminativos podem estar confidentemente errados sob entradas fora da distribuição (OOD), e modelos fundamentais (FMs), como grandes modelos de linguagem (LLMs), podem gerar saídas fluentes, mas falsas, prejudiciais ou desalinhadas. Minha pesquisa desenvolve os fundamentos do aprendizado de máquina confiável com supervisão humana mínima, unificando algoritmos e teoria que fazem da confiabilidade um objetivo de primeira classe ao lado da precisão. Avanço o aprendizado consciente do desconhecido por meio da geração automatizada de outliers, introduzindo estruturas de síntese em espaço de características e de entradas que regularizam as fronteiras de decisão e melhoram a interpretabilidade. Além disso, estabeleço métodos principiais para aprender “in the wild” aproveitando dados de implantação não rotulados sob modelos de mistura e contaminação, com garantias teóricas e desempenho de ponta para detecção OOD e generalização sob mudanças diversas. Por fim, projeto estruturas de confiabilidade para FMs explorando sinais não rotulados para detectar alucinações, defender contra prompts maliciosos em modelos de visão-linguagem e remover ruído de dados de preferência ruidosos para um alinhamento mais confiável. Coletivamente, essas contribuições fornecem um kit de ferramentas coeso para implantar sistemas de IA que permanecem precisos, calibrados e confiáveis em ambientes de mundo aberto.
Sean Du (qui,) estudou esta questão.