Key points are not available for this paper at this time.
Apresentamos o LLaMA, uma coleção de modelos de linguagem fundamentais que variam de 7B a 65B parâmetros. Treinamos nossos modelos com trilhões de tokens e mostramos que é possível treinar modelos de última geração usando exclusivamente conjuntos de dados publicamente disponíveis, sem recorrer a conjuntos de dados proprietários e inacessíveis. Em particular, o LLaMA-13B supera o GPT-3 (175B) na maioria dos benchmarks, e o LLaMA-65B é competitivo com os melhores modelos, Chinchilla-70B e PaLM-540B. Liberamos todos os nossos modelos para a comunidade de pesquisa.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hugo Touvron
Thibaut Lavril
Gautier Izacard
Building similarity graph...
Analyzing shared references across papers
Loading...
Touvron et al. (Seg,) estudaram esta questão.
www.synapsesocial.com/papers/69d98341e6ab964fb0835e37 — DOI: https://doi.org/10.48550/arxiv.2302.13971