Key points are not available for this paper at this time.
Modelos de linguagem grandes (LLMs) tornaram-se cada vez mais sofisticados, levando à sua implantação generalizada em aplicações sensíveis onde segurança e confiabilidade são primordiais. No entanto, LLMs apresentam riscos inerentes, incluindo viés, potencial para ações inseguras, envenenamento de conjuntos de dados, falta de explicabilidade, alucinações e não reprodutibilidade. Esses riscos exigem o desenvolvimento de "salvaguardas" para alinhar os LLMs com comportamentos desejados e mitigar danos potenciais. Este trabalho explora os riscos associados à implantação de LLMs e avalia abordagens atuais para implementação de salvaguardas e técnicas de alinhamento de modelos. Examinamos métodos de avaliação de viés intrínseco e extrínseco e discutimos a importância de métricas de justiça para o desenvolvimento responsável de IA. A segurança e confiabilidade dos LLMs agentivos (aqueles capazes de ações no mundo real) são exploradas, enfatizando a necessidade de testabilidade, mecanismos de segurança e consciência situacional. São apresentadas estratégias técnicas para proteger os LLMs, incluindo um modelo de proteção em camadas operando em níveis externo, secundário e interno. Destacam-se prompts do sistema, arquiteturas de Geração Auxiliada por Recuperação (RAG) e técnicas para minimizar viés e proteger a privacidade. O design eficaz de salvaguardas requer uma compreensão profunda do caso de uso pretendido do LLM, regulamentações relevantes e considerações éticas. Encontrar equilíbrio entre requisitos concorrentes, como precisão e privacidade, permanece um desafio contínuo. Este trabalho reforça a importância da pesquisa e desenvolvimento contínuos para assegurar o uso seguro e responsável dos LLMs em aplicações do mundo real.
Building similarity graph...
Analyzing shared references across papers
Loading...
Suriya Ganesh Ayyamperumal
Lin Gang-hua
Building similarity graph...
Analyzing shared references across papers
Loading...
Ayyamperumal et al. (Sun,) estudaram essa questão.
www.synapsesocial.com/papers/68e64877b6db6435875d960d — DOI: https://doi.org/10.48550/arxiv.2406.12934
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: