March 3, 2026

Aprendizaje por Refuerzo Fuera de Política Semi-Supervisado y Estimación de Valor para Regímenes de Tratamiento Dinámicos.

Puntos clave

Los regímenes de tratamiento dinámicos se benefician de enfoques de aprendizaje semi-supervisado, mejorando la estimación de resultados para pacientes.
Nuestro método de Q-learning aborda desafíos de distribución desconocida de características, mejorando la eficiencia en la estimación del valor.
Los resultados teóricos indican que nuestro método es al menos tan eficiente como los enfoques supervisados tradicionales, minimizando sesgos.
Extraer información precisa sobre resultados de salud de las notas clínicas presenta desafíos de recursos, subrayando la relevancia del método.

Resumen

El aprendizaje por refuerzo (RL) ha mostrado gran potencial en la estimación de regímenes de tratamiento dinámicos que consideran la heterogeneidad del paciente. Sin embargo, la información sobre resultados de salud, utilizada como la recompensa para los métodos RL, a menudo no está bien codificada sino que está incrustada en notas clínicas. Extraer información precisa del resultado es una tarea que consume muchos recursos, por lo que la mayoría de las cohortes bien anotadas disponibles son pequeñas. Para abordar este problema, proponemos un enfoque de aprendizaje semi-supervisado (SSL) que aprovecha eficientemente un conjunto de datos etiquetados pequeño con resultados reales observados y un conjunto grande sin etiquetar con sustitutos de resultados. En particular, proponemos un enfoque semi-supervisado, eficiente para Q-learning y estimación de valor fuera de política con doble robustez. Generalizar SSL a regímenes de tratamiento dinámicos presenta desafíos interesantes: 1) La distribución de características para Q-learning es desconocida ya que incluye resultados previos. 2) Las variables sustitutas que utilizamos en el marco modificado de SSL son predictivas del resultado pero no informativas de la política óptima o la función de valor. Proporcionamos resultados teóricos para nuestros estimadores de la función Q y de la función de valor para entender el grado de eficiencia obtenido con SSL. Nuestro método es al menos tan eficiente como el enfoque supervisado y es robusto frente a sesgos por especificación errónea de los modelos de imputación.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Aaron Sonabend-W

Nilanjana Laha

A Ananthakrishnan

Actions

Institutions

Harvard University

Massachusetts General Hospital

Texas A&M University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Aprendizaje por Refuerzo Fuera de Política Semi-Supervisado y Estimación de Valor para Regímenes de Tratamiento Dinámicos.

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider