Los datos de series temporales frecuentemente sufren problemas de calidad durante su recolección y transmisión, como puntos sucios de salto pequeño, que los métodos de limpieza existentes a menudo no detectan. Dado que los métodos actuales abordan principalmente series univariantes, sus extensiones multivariantes suelen fallar en capturar dependencias complejas entre variables, limitando significativamente su efectividad. Para ello, proponemos SHoTClean, una familia de cuatro algoritmos que integra restricciones duras (es decir, límites físicos) y restricciones suaves (es decir, patrones estadísticos) dentro de un marco de optimización con restricciones para una limpieza multivariante efectiva y eficiente de series temporales. Específicamente, formulamos la tarea de limpieza como la minimización de las violaciones de restricciones suaves respetando los límites de restricciones duras. Luego, proponemos SHoTClean que incluye: (1) SHoTClean-B para procesamiento por lotes fuera de línea utilizando programación dinámica podada para lograr optimalidad global; (2) SHoTClean-S y SHoTClean-P para escenarios de flujo en línea mediante programación dinámica incremental, donde SHoTClean-P acelera SHoTClean-S a través de divide y vencerás CDQ y árbol Fenwick para alcanzar complejidad casi lineal; y (3) SHoTClean-C, que incorpora descubrimiento causal en las restricciones suaves para capturar dependencias multivariantes. Experimentos extensos en 12 conjuntos de datos reales demuestran que nuestros métodos logran i) mejoras en precisión (métrica RMSE) entre 6.8%--90.0% y 7.8%--82.1% sobre 10 métodos de referencia de última generación en configuraciones fuera de línea y en línea, respectivamente; ii) una aceleración promedio de dos órdenes de magnitud en tiempo de ejecución en datasets a gran escala; y iii) robustez superior, con rendimiento consistentemente alto bajo un nivel extremo de contaminación del 80% y en datasets de alta dimensión. El código está disponible en https://github.com/ZJU-DAILY/SHoTClean.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhenghan Fang
Wei Shao
Zheqi Lu
Proceedings of the ACM on Management of Data
Zhejiang University
Ningbo University
Zhejiang University of Science and Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Fang et al. (Thu,) estudiaron esta cuestión.
www.synapsesocial.com/papers/69d893406c1944d70ce04443 — DOI: https://doi.org/10.1145/3786698
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: