Grandes Modelos de Linguagem (LLMs) oferecem capacidades promissoras para converter documentação de software não estruturada em fluxos de tarefas estruturados, mas suas saídas frequentemente carecem da confiabilidade processual crítica para engenharia de software. Este artigo apresenta um quadro abrangente que avalia cinco LLMs líderes—Gemini 2.5 Pro, Grok 3, GPT-Omni, DeepSeek-R1 e LLaMA-3—através de cinco estratégias de prompting, incluindo Zero-Shot, Chain-of-Thought e ISO 21502-Guided, utilizando tutoriais reais de software do repositório "Build Your Own X". Introduzimos a Métrica Híbrida de Similaridade Semântica (HSSM), que combina embeddings SentenceTransformer com sobreposição de termos-chave contextualmente conscientes, capturando tanto a fidelidade semântica quanto a coerência processual. Comparada a métricas tradicionais como BERTScore, SBERT e USE, a HSSM demonstra variância significativamente menor (CV: 1,5–2,9%) e correlação mais forte com julgamentos humanos. Nossos resultados mostram que até mesmo prompting mínimo (Zero-Shot) pode gerar fluxos de tarefas altamente alinhados (HSSM: 96,33%) quando avaliados com métricas robustas. Este trabalho oferece um paradigma escalável de avaliação para planejamento de software assistido por LLMs, com implicações para gerenciamento de projetos orientado por IA, engenharia de prompts e geração processual em educação e ferramentas de software.
Building similarity graph...
Analyzing shared references across papers
Loading...
Mohammed Sarim
Faraz Masood
Manas Maheshwari
Scientific Reports
Aligarh Muslim University
University of Science and Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Sarim et al. (Qua,) estudaram esta questão.
www.synapsesocial.com/papers/68e861b07ef2f04ca37e49af — DOI: https://doi.org/10.1038/s41598-025-19170-9
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: