Multiple Object Tracking and Face-based Video Retrieval: Applications of Deep Learning to Video Analysis
Abstract
In recent years, deep learning (DL) has obtained numerous successes in
analyzing complex data, such as images or audio. A particularly recent area
of application is the analysis of videos.
This thesis focuses on the application of deep learning algorithm to two
video analysis tasks: Multiple Object Tracking (MOT) and Face-based Video
Retrieval (FBVR).
The first main part of the thesis presents an in-depth survey of the state
of the art of DL-based MOT algorithms. This is the first comprehensive survey
specifically on the use of DL for MOT, focusing on 2D frames extracted from
single-camera videos. I identify the four main steps of a MOT algorithm and
describe the various DL techniques used in the literature in each of those four
steps. I also collect and compare results obtained by existing algorithms on
the most common MOT datasets and I analyze the most successful techniques
employed. Finally, I present a discussion about the open issues of current
MOT algorithms and the possible solutions and future directions of research.
The second part of the thesis focuses instead on the task of FBVR. I
present a novel pipeline for the retrieval of unconstrained multi-shot videos
using faces, specifically in the context of television-like videos. Since no
existing dataset in the literature is appropriate for an end-to-end evaluation
of the proposed pipeline, I build a large-scale video dataset by adapting the
VoxCeleb2 dataset to the task of FBVR. I compare and evaluate numerous
DL-based approaches for the various steps in pipeline, such as shot detection,
face detection and face recognition, and I describe the advantages and
disadvantages of each employed technique. The best-performing configuration of the pipeline obtains 97.25% Mean Average Precision on the independent
test set, while performing each query on thousands of videos in less than 0.5
seconds. Finally, I describe the integration of the presented pipeline into the
commercial software TVBridge, developed by CEDEO. [edited by Author] Negli ultimi anni il deep learning (DL) ha avuto molto successo
nell’analisi di dati complessi, quali immagini o audio. Un’area di applicazione
particolarmente recente `e l’analisi di video.
Questa tesi tratta dell’applicazione di algoritmi di deep learning a due
task di analisi video: il Multiple Object Tracking (MOT) e il Face-based Video
Retrieval (FBVR).
La prima parte della tesi presenta un’approfondita revisione della
letteratura sullo stato dell’arte di algoritmi MOT basati su DL. Questa `e la
prima revisione della letteratura a concentrarsi specificamente sull’utilizzo del
DL per il MOT, in particolare per frame 2D estratti da video registrati con una
singola videocamera. Ho identificato i quattro principali passi di un algoritmo
MOT e descritto le varie tecniche di DL utilizzate in letteratura per ciascuno di
questi quattro passi. Ho raccolto e confrontato i risultati ottenuti da algoritmi
in letteratura sui pi`u comuni dataset MOT e ho analizzato le migliori tecniche
utilizzate. Presento infine una discussione riguardo ai problemi aperti degli
algoritmi MOT esistenti, insieme alle possibili soluzioni e alle direzioni future
di ricerca.
La seconda parte della tesi si concentra invece sul task del FBVR. Ho
presentato una pipeline innovativa per la ricerca di video multi-shot senza
restrizioni (unconstrained) tramite l’utilizzo di facce, nel contesto specifico
di video di tipo televisivo. Poich´e nessun dataset esistente in letteratura era
appropriato per una valutazione esaustiva della pipeline proposta, ho costruito
un dataset di video di grandi dimensioni riadattando il dataset VoxCeleb2 al
task del FBVR. Ho confrontato e valutato diversi approcci basati su DL per i vari passi della pipeline, tra cui identificazione degli shot, identificazione
delle facce e riconoscimento facciale. Ho inoltre descritto vantaggi e svantaggi
di ciascuna tecnica utilizzata. La migliore configurazione della pipeline ha
ottenuto una Mean Average Precision pari al 97.25% sul test set indipendente,
il tutto eseguendo ciascuna query su migliaia di video in meno di 0.5 secondi.
Ho infine descritto il processo di integrazione della pipeline nel software
commerciale TVBridge, sviluppato da CEDEO. [a cura dell'Autore]