What type of study is this?

This is a Quantitative Study study.

October 1, 2025Open Access

Querida, eu encolhi o modelo de linguagem: Impacto dos métodos de destilação de conhecimento no desempenho e explicabilidade

Key Points

Métodos inovadores de destilação melhoram significativamente o desempenho e a explicabilidade dos modelos de linguagem.
O desempenho medido pela acurácia do modelo aluno mostra melhorias notáveis com os novos métodos.
Um estudo fundamentado em humanos avaliou a explicabilidade em modelos de linguagem usando o conjunto de dados Commonsense Question-Answering.
As descobertas podem ampliar a implantação de modelos de linguagem menores e mais eficientes.

Abstract

A Inteligência Artificial (IA) tem influenciado cada vez mais a sociedade moderna, recentemente em particular por meio de avanços significativos em Grandes Modelos de Linguagem (LLMs). No entanto, as altas demandas computacionais e de armazenamento dos LLMs ainda limitam sua implementação em ambientes com recursos restritos. A destilação de conhecimento aborda esse desafio ao treinar um modelo aluno menor a partir de um modelo professor maior. Pesquisas anteriores introduziram vários métodos de destilação tanto para gerar dados de treinamento quanto para treinar o modelo aluno. Apesar de sua relevância, os efeitos dos métodos de destilação de última geração no desempenho do modelo e na explicabilidade não foram investigados e comparados minuciosamente. Neste trabalho, ampliamos o conjunto de métodos disponíveis aplicando a técnica de crítica-revisão na destilação para geração de dados e sintetizando métodos existentes para o treinamento. Para esses métodos, fornecemos uma comparação sistemática baseada no amplamente utilizado conjunto de dados Commonsense Question-Answering (CQA). Enquanto medimos o desempenho pela acurácia do modelo aluno, empregamos um estudo fundamentado em humanos para avaliar a explicabilidade. Contribuímos com novos métodos de destilação e sua comparação em termos de desempenho e explicabilidade. Isso deve avançar ainda mais a destilação de pequenos modelos de linguagem e, assim, contribuir para uma aplicabilidade mais ampla e difusão mais rápida da tecnologia LLM.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Dirk Hendriks

Philipp Spitzer

Niklas Kühl

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Querida, eu encolhi o modelo de linguagem: Impacto dos métodos de destilação de conhecimento no desempenho e explicabilidade

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider