April 15, 2024Open Access

Geração de Código Consciente do Conhecimento com Grandes Modelos de Linguagem

Key Points

Key points are not available for this paper at this time.

Abstract

Grandes Modelos de Linguagem (LLMs) têm bom desempenho em problemas básicos de programação. No entanto, eles enfrentam desafios ao lidar com tarefas complexas que envolvem o uso de diversas habilidades algorítmicas e de estruturas de dados, especialmente problemas no nível de competições de programação. Notavelmente, o ChatGPT apresenta desempenho proficiente em problemas que encontrou durante sua fase de pré-treinamento, mas esse desempenho se deteriora ao ser confrontado com problemas novos. Consequentemente, aprimorar a capacidade dos LLMs de resolver problemas desconhecidos surgiu como um foco crucial de pesquisa. O processo de resolução de problemas dos LLMs reflete, em certa medida, a abordagem dos programadores humanos. Ao serem apresentados a novas tarefas de programação, programadores humanos realizam planejamento da tarefa e escrita de código com base no conhecimento prévio adquirido sobre algoritmos e estruturas de dados. Apesar de terem aprendido esse conhecimento, os LLMs têm dificuldade em aplicá-lo efetivamente quando enfrentam problemas específicos novos. Para resolver essa questão, construímos um novo conjunto de dados, CodeF, que contém uma porção de problemas de programação que o ChatGPT não havia encontrado anteriormente. Além disso, desenvolvemos uma Biblioteca de Conhecimento voltada para problemas de concursos de programação em Python e introduzimos o conceito de Geração de Código Consciente do Conhecimento (KareCoder). O KareCoder reforça a compreensão e as habilidades de resolução de problemas dos modelos integrando prompts e conhecimento da biblioteca ao processo de raciocínio de geração de código dos LLMs, especialmente nas métricas Pass@1. Ao testar nos conjuntos de dados CodeF e APPS, o KareCoder demonstrou desempenho excepcional ao lidar com problemas novos não encontrados anteriormente pelos LLMs. Em comparação com o código gerado diretamente pelo ChatGPT, o KareCoder alcançou uma melhoria relativa de 23,3% na métrica Pass@1 no conjunto de dados CodeF pós-2021-9. Além disso, apresenta bom desempenho em comparação com outros métodos ao lidar com problemas que os LLMs já haviam encontrado. Nosso conjunto de dados e dados experimentais são open source e podem ser acessados em https://github.com/CodeGeneration3/KareCoder.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tao Huang

Zhihong Sun

Zhi Jin

Actions

Institutions

Peking University

Shandong Normal University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Geração de Código Consciente do Conhecimento com Grandes Modelos de Linguagem

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider