Les Agents de Recherche Approfondie (ARA) peuvent mener de manière autonome des enquêtes complexes et générer des rapports complets, démontrant un fort potentiel réel. Cependant, les évaluations existantes reposent principalement sur des référentiels à questions fermées, tandis que les référentiels de recherche approfondie ouverts restent rares et négligent généralement les scénarios personnalisés. Pour combler cette lacune, nous présentons Personalized Deep Research Bench, le premier référentiel pour évaluer la personnalisation chez les ARA. Il associe 50 tâches de recherche diversifiées dans 10 domaines à 25 profils utilisateur authentiques combinant des attributs de persona structurés avec des contextes dynamiques du monde réel, produisant 250 requêtes utilisateur-tâche réalistes. Pour évaluer la performance des systèmes, nous proposons le Cadre d'Évaluation PQR, qui mesure conjointement (P) l'Alignement de la Personnalisation, (Q) la Qualité du Contenu et (R) la Fiabilité Factuelle. Nos expériences sur une gamme de systèmes mettent en lumière les capacités actuelles et les limites dans la gestion de la recherche approfondie personnalisée. Ce travail établit une base rigoureuse pour le développement et l'évaluation de la prochaine génération d'assistants de recherche IA véritablement personnalisés.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuan Liang
J.X. Li
Yuqing Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Liang et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/68f5fcd68d54a28a75cf1e4f — DOI: https://doi.org/10.48550/arxiv.2509.25106
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: