Die Evaluierung von domänenspezifischen Chatbots mit Schwerpunkt auf Rechtsdokumenten stellt eine besondere Herausforderung im Forschungsbereich der Mensch-Computer-Interaktion dar. Diese Masterarbeit untersuchte, wie juristische Experten einen auf Retrieval-Augmented Generation basierenden Steuerrecht-Chatbot bei der Ausführung von realistischen Routineaufgaben erleben. Ziel ist es, die wahrgenommene Vertrauenswürdigkeit, Benutzerfreundlichkeit und die wahrgenommene mentale Arbeitsbelastung bei Routineaufgaben für die Steuerrechtsexperten der Arbeiterkammer zu verstehen. In dieser Arbeit wird der Steuerrecht-Chatbot der Arbeiterkammer (AK-chatbot) evaluiert und es werden mögliche Verbesserungen identifiziert. Zur Erhebung quantitativer und qualitativer Daten wird ein eingebettetes Mixed-Methods-Forschungsdesign verwendet und das in dieser Arbeit entwickelte Chatbot Evaluation Framework (CEF) eingesetzt. Nach einer Mensch-Chatbot-Interaktion füllen die Teilnehmer einen Fragebogen aus und nehmen anschließend an einem semistrukturierten Interview teil. Ziel der Umfrage ist es, die von den Teilnehmern wahrgenommene mentale Arbeitsbelastung (RTLX), die Benutzerfreundlichkeit des Chatbots (Chatbot Usability Questionnaire, CUQ) und die wahrgenommene Vertrauenswürdigkeit zu untersuchen, während sich die semistrukturierten Interviews auf die Themen Integration in den Arbeitsalltag, wahrgenommene Vertrauenswürdigkeit, Bereiche für die zukünftige Entwicklung des Steuerrechts-Chatbots, Informationsbedarf der Teilnehmer (XAI Novice Question Bank) und ihre Vorkenntnisse in Bezug auf die Nutzung von Chatbots konzentrieren. Die Ergebnisse zeigen, dass der Steuerrecht-Chatbot als eingeschränkt vertrauenswürdig wahrgenommen wird, Schwächen in der Benutzerfreundlichkeit festgestellt wurden und Steuerexperten bei der Nutzung keine außergewöhnlich hohe mentale Arbeitsbelastung angaben. Es wurden Verbesserungsmöglichkeiten für die weitere Entwicklung identifiziert und der bestehende Informationsbedarf der Steuerrechtsexperten erfasst. Einerseits trägt diese Arbeit dazu bei, neue Referenzwerte für RTLX und CUQ zu generieren, andererseits können die Erkenntnisse aus den Daten zur Weiterentwicklung der Evaluierung von juristischen Chatbots beitragen.
Felix Aufreiter (Thu,) studied this question.