El objetivo de este estudio es mejorar las estrategias de comercio intradía en el mercado de valores indio, específicamente para el índice NIFTY 50, a través de la aplicación del Aprendizaje por Refuerzos (RL). Este estudio explora cómo se pueden aprovechar las técnicas de RL para la optimización de estrategias de comercio estimando valores Q empíricos para acciones individuales. El marco experimental propuesto en este estudio comprende diferentes etapas, a saber, recolección y preprocesamiento de datos, diseño del entorno, selección de modelos, entrenamiento y pruebas, seguido de la evaluación del rendimiento. Se obtuvo datos históricos de cinco años a través de la API de una plataforma de corretaje líder en India, que luego fue limpiada y enriquecida con indicadores técnicos seleccionados. Hemos comparado la efectividad y eficiencia de tres algoritmos de RL: Aprendizaje Q (QL), Red Neuronal Profunda Q (DQN) y Red Neuronal Profunda Doble Q (DDQN) en el contexto del comercio de acciones. El rendimiento de los algoritmos se evalúa utilizando métricas clave como retornos acumulados, máximo retroceso, ratio de ganancia-pérdida, ratio de Sharpe, negociaciones totales y rentabilidad general. Los resultados experimentales muestran que el DDQN supera constantemente a QL y DQN, destacando su robustez bajo condiciones de comercio realistas. Los conocimientos derivados de los experimentos realizados en este estudio contribuyen a la investigación de aprendizaje automático financiero y ofrecen recomendaciones prácticas para el diseño de sistemas de comercio algorítmico.
Borkar et al. (Mon,) estudiaron esta cuestión.