What type of study is this?

This is a Quantitative Study study.

October 10, 2025Open Access

Gerando fluxos confiáveis de tarefas de projetos de software usando grandes modelos de linguagem por meio de engenharia de prompts e avaliação robusta

Key Points

Avaliação robusta mostra que até mesmo prompting mínimo gera fluxos de tarefas com 96,33% de alinhamento, aprimorando fluxos de trabalho de projetos de software.
Usando a Métrica Híbrida de Similaridade Semântica para avaliação, esta abordagem apresenta menor variância e correlação mais forte com julgamentos humanos.
A avaliação de cinco grandes modelos de linguagem líderes revela potencial para melhorar a confiabilidade processual na educação em software.
O estudo introduz estratégias eficazes de prompting para LLMs, indicando implicações significativas para gerenciamento de projetos orientado por IA.

Abstract

Grandes Modelos de Linguagem (LLMs) oferecem capacidades promissoras para converter documentação de software não estruturada em fluxos de tarefas estruturados, mas suas saídas frequentemente carecem da confiabilidade processual crítica para engenharia de software. Este artigo apresenta um quadro abrangente que avalia cinco LLMs líderes—Gemini 2.5 Pro, Grok 3, GPT-Omni, DeepSeek-R1 e LLaMA-3—através de cinco estratégias de prompting, incluindo Zero-Shot, Chain-of-Thought e ISO 21502-Guided, utilizando tutoriais reais de software do repositório "Build Your Own X". Introduzimos a Métrica Híbrida de Similaridade Semântica (HSSM), que combina embeddings SentenceTransformer com sobreposição de termos-chave contextualmente conscientes, capturando tanto a fidelidade semântica quanto a coerência processual. Comparada a métricas tradicionais como BERTScore, SBERT e USE, a HSSM demonstra variância significativamente menor (CV: 1,5–2,9%) e correlação mais forte com julgamentos humanos. Nossos resultados mostram que até mesmo prompting mínimo (Zero-Shot) pode gerar fluxos de tarefas altamente alinhados (HSSM: 96,33%) quando avaliados com métricas robustas. Este trabalho oferece um paradigma escalável de avaliação para planejamento de software assistido por LLMs, com implicações para gerenciamento de projetos orientado por IA, engenharia de prompts e geração processual em educação e ferramentas de software.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Mohammed Sarim

Faraz Masood

Manas Maheshwari

Journals

Scientific Reports

Actions

Institutions

Aligarh Muslim University

University of Science and Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Gerando fluxos confiáveis de tarefas de projetos de software usando grandes modelos de linguagem por meio de engenharia de prompts e avaliação robusta

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider