Key points are not available for this paper at this time.
Treinar e avaliar com precisão chatbots específicos para tarefas é uma área importante de pesquisa para Large Language Models (LLMs). Esses modelos podem ser desenvolvidos para propósitos gerais com a capacidade de lidar com múltiplas tarefas, ou fine-tuned para aplicações específicas, como educação ou suporte ao cliente. Neste estudo, os modelos Mistral 7B, Llama-2 e Phi-2 foram utilizados, os quais têm sucesso comprovado em vários benchmarks, incluindo resposta a perguntas. Os modelos foram fine-tuned usando QLoRa com informações limitadas coletadas de catálogos de cursos. Os modelos fine-tuned foram avaliados usando diversas métricas, com as respostas do GPT-4 consideradas como verdade terra. Os experimentos revelaram que o Phi-2 superou ligeiramente o Mistral 7B, alcançando pontuações de 0.012 BLEU, 0.184 METEOR e 0.873 BERT. Considerando as métricas de avaliação obtidas, as forças e fraquezas dos modelos LLM conhecidos, a quantidade de dados necessária para o fine-tuning e o efeito do método de fine-tuning no desempenho do modelo são discutidos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Rabia Bayraktar
Batuhan Sarıtürk
Merve Elmas Erdem
International Journal of Innovative Science and Research Technology (IJISRT)
Building similarity graph...
Analyzing shared references across papers
Loading...
Bayraktar et al. (Mon,) estudaram esta questão.
www.synapsesocial.com/papers/68e6567bb6db6435875e5992 — DOI: https://doi.org/10.38124/ijisrt/ijisrt24may1600
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: