Robust video trackers against in-capture and post-capture distortions using video quality assessment based on natural scene statistics and deep learning

Abstract
El trabajo investigativo realizado hasta el momento en Seguimiento de Objetos en Video (VOT) ha estudiado diversos factores de la imagen que afectan el rendimiento de VOT. Por ejemplo, factores como oclusión, aglomeración, confusión, la forma del objeto, velocidad variable, acercamiento, entre otros, influencian la calidad del video y afectan la precisión del seguidor. Sin embargo, hasta el momento, no se ha definido una distinción clara entre los desafíos originados por la escena, tales como oclusión y aglomeración de objetos, con los desafíos impuestos directamente por la calidad del video. Estas distorsiones que afectan la calidad del video pueden generarse por etapas o fases presentes en la captura, compresión, procesamiento y transmisión del video. A pesar de la abundancia de métodos VOT en la literatura, aún se presenta una ausencia de estudios detallados que analicen el rendimiento de los VOT en videos que contengan distorsiones en captura y post-captura. El seguimiento de objetos en video es una tarea desafiante debido a la necesidad de trabajar con videos que tienen múltiples imperfecciones y distorsiones. Entre estas se encuentran rectángulos de inicialización del objeto mal ubicados, ruido en el sensor, latencia por transmisión de video, cambios de iluminación, y pérdida de datos por algoritmos de compresión. Un importante y actual campo de investigación es la interacción entre la calidad de video y el desempeño en la tarea. Esto al tener en cuenta que los videos usados en video-vigilancia están plagados con numerosas fuentes de distorsión, incluyendo borrosidad, ruido y artefactos que surgen de procesos como compresión, escalado, conversión de formato, entre otros. A menudo en un mismo video se encuentran múltiples distorsiones, las cuales interactúan, lo cual complica significativamente la tarea del seguidor de objetos. Aunque en el estado del arte se proponen numerosos algoritmos seguidores de objeto cada año, hacerlos robustos contra la amplia variedad de distorsiones no lineales, a menudo contenidas de forma simultánea, y además, poco entendidas, es un problema altamente complejo. A pesar de la buena precisión de los algoritmos seguidores recientes, estos no han demostrado ser lo suficientemente robustos a distorsiones de video en captura y postcaptura. Algo que no ha permitido el avance en la mejora de dicha robustez, es la ausencia de bases de datos de videos que presenten distorsiones en captura. Similarmente, no se reporta una evaluación sistemática de los seguidores del estado del arte en videos que adquieran distorsiones durante la captura y postcaptura.
Description
item.page.descriptioneng
The current work in Video Object Tracking (VOT) has studied various image factors that affect VOT algorithm performance. For instance, factors such as occlusion, clutter, confusion, object shape, varying speed, and zooming, which influence video quality, affect tracking performance. Nonetheless, there is no clear distinction between scene-dependent challenges such as occlusion and clutter and the challenges imposed by traditional notions of “quality impairments” inherited from capture, compression, processing, and transmission. Despite the plethora of VOT methods in the literature, there is a lack of detailed studies analyzing the performance of videos with authentic in-capture and post-capture distortions. VOT is a challenging task because the videos analyzed can be distorted by impairments such as bounding box initialization error, sensor noise, latency by video transmission, illumination changes, and data loss caused by compression algorithms. An exciting direction of research is the interaction between visual quality and tracking task. Taking into account that Surveillance videos are fraught with numerous sources of distortions, including blur, noise, and artifacts arising from processes such as compression, scaling, and format conversion. Multiple interacting distortions are often present, which significantly complicates the tracking task. Although effective tracking algorithms have been implemented, the study of their performance with respect to a wide variety of generally nonlinear, often commingled, poorly understood distortions, in practice, is a complex problem. Despite numerous algorithms proposed in the past few decades, video tracking methods that explicitly include strategies to make them robust to in-capture and post-capture video distortions have not been widely explored. Hence, there is a lack of data sets designed for object tracking that present in-capture distortion and systematic evaluation of state-of-the-art video tracking algorithms under in-capture and post-capture video distortions.
Keywords
Evaluación de calidad de video, Seguimiento de objetos en video, Red neuronal convolucional, Predicción de rendimiento de seguidor de objetos, Distorsiones en el momento de la captura, Seguimiento de objetos en video robusto, Base de datos de videos auténticamente distorsionados
Citation