Key points are not available for this paper at this time.
Zusammenfassung Generative Künstliche Intelligenz wird die Gesundheitsversorgung revolutionieren, indem sie die traditionelle Patientenbetreuung in einen personalisierteren, effizienteren und proaktiveren Prozess verwandelt. Chatbots, die als interaktive Konversationsmodelle dienen, werden diese patientenzentrierte Transformation im Gesundheitswesen wahrscheinlich vorantreiben. Durch die Bereitstellung verschiedener Dienste, einschließlich Diagnosen, personalisierter Lifestyle-Empfehlungen, dynamischer Terminplanung für Nachsorgetermine und psychischer Gesundheitsunterstützung, ist das Ziel, die Gesundheitsergebnisse der Patienten deutlich zu verbessern und gleichzeitig die Arbeitsbelastung der Gesundheitsdienstleister zu verringern. Die lebenswichtige Bedeutung von Anwendungen im Gesundheitswesen erfordert die Etablierung eines einheitlichen und umfassenden Satzes von Bewertungsmetriken für Konversationsmodelle. Bestehende Bewertungsmetriken, die für verschiedene generische Large Language Models (LLMs) vorgeschlagen wurden, zeigen ein mangelndes Verständnis medizinischer und gesundheitsbezogener Konzepte sowie deren Bedeutung für die Förderung des Wohlbefindens der Patienten. Darüber hinaus vernachlässigen diese Metriken zentrale nutzerzentrierte Aspekte wie Vertrauensaufbau, Ethik, Personalisierung, Empathie, Nutzerverständnis und emotionale Unterstützung. Ziel dieses Artikels ist es, modernste LLM-basierte Bewertungsmetriken zu untersuchen, die speziell für die Bewertung interaktiver Konversationsmodelle im Gesundheitswesen anwendbar sind. Anschließend präsentieren wir einen umfassenden Satz von Bewertungsmetriken, der die Leistung von Gesundheits-Chatbots aus Sicht der Endnutzer gründlich bewertet. Diese Metriken umfassen eine Bewertung der Sprachverarbeitungsfähigkeiten, des Einflusses auf reale klinische Aufgaben und der Effektivität in nutzerinteraktiven Gesprächen. Abschließend diskutieren wir die Herausforderungen bei der Definition und Implementierung dieser Metriken, mit besonderem Schwerpunkt auf Störfaktoren wie Zielgruppe, Bewertungsmethoden und in den Bewertungsprozess involvierten Prompt-Techniken.
Building similarity graph...
Analyzing shared references across papers
Loading...
Mahyar Abbasian
Elahe Khatibi
Iman Azimi
npj Digital Medicine
SHILAP Revista de lepidopterología
Stanford University
University of Toronto
University of Pittsburgh
Building similarity graph...
Analyzing shared references across papers
Loading...
Abbasian et al. (Fri,) haben diese Frage untersucht.
www.synapsesocial.com/papers/69963c757337044b0bbd8cfa — DOI: https://doi.org/10.1038/s41746-024-01074-z
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: