Key points are not available for this paper at this time.
Les systèmes de recommandation réels doivent souvent équilibrer plusieurs objectifs lors de la décision des recommandations à présenter aux utilisateurs. Ceux-ci incluent des signaux comportementaux (par exemple, clics, partages, temps passé), ainsi que des objectifs plus larges (par exemple, diversité, équité). Les méthodes de scalarisation sont couramment utilisées pour gérer cette tâche d'équilibrage, où une moyenne pondérée des signaux de récompense par objectif détermine le score final utilisé pour le classement. Naturellement, la manière dont ces poids sont calculés exactement est essentielle pour le succès de toute plateforme en ligne. Nous encadrons cela comme une tâche de prise de décision, où les poids de scalarisation sont des actions prises pour maximiser une récompense globale North Star (par exemple, la rétention utilisateur à long terme ou la croissance). Nous étendons les méthodes existantes d'apprentissage de politique au domaine d'action multivarié continu, proposant de maximiser une borne inférieure pessimiste sur la récompense North Star que la politique apprise produira. Les bornes inférieures typiques basées sur des approximations normales souffrent d'une couverture insuffisante, et nous proposons une correction efficace et efficiente dépendante de la politique pour cela. Nous fournissons des conseils pour concevoir des politiques stochastiques de collecte de données, ainsi que des signaux de récompense très sensibles. Des observations empiriques issues de simulations, d'expériences hors ligne et en ligne soulignent l'efficacité de notre approche déployée.
Building similarity graph...
Analyzing shared references across papers
Loading...
Olivier Jeunen
Jatin Mandav
Ivan A. Potapov
Building similarity graph...
Analyzing shared references across papers
Loading...
Jeunen et al. (ven.) ont étudié cette question.
www.synapsesocial.com/papers/68e6bbccb6db64358763c473 — DOI: https://doi.org/10.48550/arxiv.2405.02141
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: