May 3, 2024Open Access

Recommandation Multi-Objectifs via Apprentissage de Politique Multivariée

Key Points

Key points are not available for this paper at this time.

Abstract

Les systèmes de recommandation réels doivent souvent équilibrer plusieurs objectifs lors de la décision des recommandations à présenter aux utilisateurs. Ceux-ci incluent des signaux comportementaux (par exemple, clics, partages, temps passé), ainsi que des objectifs plus larges (par exemple, diversité, équité). Les méthodes de scalarisation sont couramment utilisées pour gérer cette tâche d'équilibrage, où une moyenne pondérée des signaux de récompense par objectif détermine le score final utilisé pour le classement. Naturellement, la manière dont ces poids sont calculés exactement est essentielle pour le succès de toute plateforme en ligne. Nous encadrons cela comme une tâche de prise de décision, où les poids de scalarisation sont des actions prises pour maximiser une récompense globale North Star (par exemple, la rétention utilisateur à long terme ou la croissance). Nous étendons les méthodes existantes d'apprentissage de politique au domaine d'action multivarié continu, proposant de maximiser une borne inférieure pessimiste sur la récompense North Star que la politique apprise produira. Les bornes inférieures typiques basées sur des approximations normales souffrent d'une couverture insuffisante, et nous proposons une correction efficace et efficiente dépendante de la politique pour cela. Nous fournissons des conseils pour concevoir des politiques stochastiques de collecte de données, ainsi que des signaux de récompense très sensibles. Des observations empiriques issues de simulations, d'expériences hors ligne et en ligne soulignent l'efficacité de notre approche déployée.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Olivier Jeunen

Jatin Mandav

Ivan A. Potapov

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Recommandation Multi-Objectifs via Apprentissage de Politique Multivariée

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider