El aprendizaje por refuerzo (RL) ha mostrado gran potencial en la estimación de regímenes de tratamiento dinámicos que consideran la heterogeneidad del paciente. Sin embargo, la información sobre resultados de salud, utilizada como la recompensa para los métodos RL, a menudo no está bien codificada sino que está incrustada en notas clínicas. Extraer información precisa del resultado es una tarea que consume muchos recursos, por lo que la mayoría de las cohortes bien anotadas disponibles son pequeñas. Para abordar este problema, proponemos un enfoque de aprendizaje semi-supervisado (SSL) que aprovecha eficientemente un conjunto de datos etiquetados pequeño con resultados reales observados y un conjunto grande sin etiquetar con sustitutos de resultados. En particular, proponemos un enfoque semi-supervisado, eficiente para Q-learning y estimación de valor fuera de política con doble robustez. Generalizar SSL a regímenes de tratamiento dinámicos presenta desafíos interesantes: 1) La distribución de características para Q-learning es desconocida ya que incluye resultados previos. 2) Las variables sustitutas que utilizamos en el marco modificado de SSL son predictivas del resultado pero no informativas de la política óptima o la función de valor. Proporcionamos resultados teóricos para nuestros estimadores de la función Q y de la función de valor para entender el grado de eficiencia obtenido con SSL. Nuestro método es al menos tan eficiente como el enfoque supervisado y es robusto frente a sesgos por especificación errónea de los modelos de imputación.
Building similarity graph...
Analyzing shared references across papers
Loading...
Aaron Sonabend-W
Nilanjana Laha
A Ananthakrishnan
Harvard University
Massachusetts General Hospital
Texas A&M University
Building similarity graph...
Analyzing shared references across papers
Loading...
Sonabend-W et al. (Sun,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: