A Inteligência Artificial (IA) tem influenciado cada vez mais a sociedade moderna, recentemente em particular por meio de avanços significativos em Grandes Modelos de Linguagem (LLMs). No entanto, as altas demandas computacionais e de armazenamento dos LLMs ainda limitam sua implementação em ambientes com recursos restritos. A destilação de conhecimento aborda esse desafio ao treinar um modelo aluno menor a partir de um modelo professor maior. Pesquisas anteriores introduziram vários métodos de destilação tanto para gerar dados de treinamento quanto para treinar o modelo aluno. Apesar de sua relevância, os efeitos dos métodos de destilação de última geração no desempenho do modelo e na explicabilidade não foram investigados e comparados minuciosamente. Neste trabalho, ampliamos o conjunto de métodos disponíveis aplicando a técnica de crítica-revisão na destilação para geração de dados e sintetizando métodos existentes para o treinamento. Para esses métodos, fornecemos uma comparação sistemática baseada no amplamente utilizado conjunto de dados Commonsense Question-Answering (CQA). Enquanto medimos o desempenho pela acurácia do modelo aluno, empregamos um estudo fundamentado em humanos para avaliar a explicabilidade. Contribuímos com novos métodos de destilação e sua comparação em termos de desempenho e explicabilidade. Isso deve avançar ainda mais a destilação de pequenos modelos de linguagem e, assim, contribuir para uma aplicabilidade mais ampla e difusão mais rápida da tecnologia LLM.
Building similarity graph...
Analyzing shared references across papers
Loading...
Dirk Hendriks
Philipp Spitzer
Niklas Kühl
Building similarity graph...
Analyzing shared references across papers
Loading...
Hendriks et al. (Ter,) estudaram esta questão.
www.synapsesocial.com/papers/68dd91cbfe798ba2fc498791 — DOI: https://doi.org/10.48550/arxiv.2504.16056
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: