Multiple Object Tracking and Face-based Video Retrieval: Applications of Deep Learning to Video Analysis

Ciaparrone, Gioele

Please use this identifier to cite or link to this item: http://elea.unisa.it/xmlui/handle/10556/6450

Full metadata record

DC Field	Value	Language
dc.date.accessioned	2023-02-24T12:35:20Z
dc.date.available	2023-02-24T12:35:20Z
dc.description	2019 - 2020	it_IT
dc.description.abstract	In recent years, deep learning (DL) has obtained numerous successes in analyzing complex data, such as images or audio. A particularly recent area of application is the analysis of videos. This thesis focuses on the application of deep learning algorithm to two video analysis tasks: Multiple Object Tracking (MOT) and Face-based Video Retrieval (FBVR). The first main part of the thesis presents an in-depth survey of the state of the art of DL-based MOT algorithms. This is the first comprehensive survey specifically on the use of DL for MOT, focusing on 2D frames extracted from single-camera videos. I identify the four main steps of a MOT algorithm and describe the various DL techniques used in the literature in each of those four steps. I also collect and compare results obtained by existing algorithms on the most common MOT datasets and I analyze the most successful techniques employed. Finally, I present a discussion about the open issues of current MOT algorithms and the possible solutions and future directions of research. The second part of the thesis focuses instead on the task of FBVR. I present a novel pipeline for the retrieval of unconstrained multi-shot videos using faces, specifically in the context of television-like videos. Since no existing dataset in the literature is appropriate for an end-to-end evaluation of the proposed pipeline, I build a large-scale video dataset by adapting the VoxCeleb2 dataset to the task of FBVR. I compare and evaluate numerous DL-based approaches for the various steps in pipeline, such as shot detection, face detection and face recognition, and I describe the advantages and disadvantages of each employed technique. The best-performing configuration of the pipeline obtains 97.25% Mean Average Precision on the independent test set, while performing each query on thousands of videos in less than 0.5 seconds. Finally, I describe the integration of the presented pipeline into the commercial software TVBridge, developed by CEDEO. [edited by Author]
dc.description.abstract	Negli ultimi anni il deep learning (DL) ha avuto molto successo nell’analisi di dati complessi, quali immagini o audio. Un’area di applicazione particolarmente recente `e l’analisi di video. Questa tesi tratta dell’applicazione di algoritmi di deep learning a due task di analisi video: il Multiple Object Tracking (MOT) e il Face-based Video Retrieval (FBVR). La prima parte della tesi presenta un’approfondita revisione della letteratura sullo stato dell’arte di algoritmi MOT basati su DL. Questa `e la prima revisione della letteratura a concentrarsi specificamente sull’utilizzo del DL per il MOT, in particolare per frame 2D estratti da video registrati con una singola videocamera. Ho identificato i quattro principali passi di un algoritmo MOT e descritto le varie tecniche di DL utilizzate in letteratura per ciascuno di questi quattro passi. Ho raccolto e confrontato i risultati ottenuti da algoritmi in letteratura sui pi`u comuni dataset MOT e ho analizzato le migliori tecniche utilizzate. Presento infine una discussione riguardo ai problemi aperti degli algoritmi MOT esistenti, insieme alle possibili soluzioni e alle direzioni future di ricerca. La seconda parte della tesi si concentra invece sul task del FBVR. Ho presentato una pipeline innovativa per la ricerca di video multi-shot senza restrizioni (unconstrained) tramite l’utilizzo di facce, nel contesto specifico di video di tipo televisivo. Poich´e nessun dataset esistente in letteratura era appropriato per una valutazione esaustiva della pipeline proposta, ho costruito un dataset di video di grandi dimensioni riadattando il dataset VoxCeleb2 al task del FBVR. Ho confrontato e valutato diversi approcci basati su DL per i vari passi della pipeline, tra cui identificazione degli shot, identificazione delle facce e riconoscimento facciale. Ho inoltre descritto vantaggi e svantaggi di ciascuna tecnica utilizzata. La migliore configurazione della pipeline ha ottenuto una Mean Average Precision pari al 97.25% sul test set indipendente, il tutto eseguendo ciascuna query su migliaia di video in meno di 0.5 secondi. Ho infine descritto il processo di integrazione della pipeline nel software commerciale TVBridge, sviluppato da CEDEO. [a cura dell'Autore]	it_IT
dc.language.iso	en	it_IT
dc.subject.miur	INF/01 INFORMATICA	it_IT
dc.contributor.coordinatore	Antonelli, Valerio	it_IT
dc.description.ciclo	XXXIII ciclo	it_IT
dc.contributor.tutor	Tagliaferri, Roberto	it_IT
dc.identifier.Dipartimento	Scienze aziendali – Management & innovation systems	it_IT
dc.title	Multiple Object Tracking and Face-based Video Retrieval: Applications of Deep Learning to Video Analysis	it_IT
dc.contributor.author	Ciaparrone, Gioele
dc.date.issued	2021-10-11
dc.identifier.uri	http://elea.unisa.it:8080/xmlui/handle/10556/6450
dc.identifier.uri	http://dx.doi.org/10.14273/unisa-4522
dc.type	Doctoral Thesis	it_IT
dc.subject	Deep learning	it_IT
dc.subject	Multiple object tracking	it_IT
dc.subject	Video retrieval	it_IT
dc.publisher.alternative	Universita degli studi di Salerno	it_IT
Appears in Collections:	Big Data Management

Files in This Item:

File	Description	Size	Format
tesi_di_dottorato_G_Ciaparrone.pdf	tesi di dottorato	4.05 MB	Adobe PDF	View/Open
abstract in inglese G. Ciaparrone.pdf	abstract in inglese a cura dell'autore	238.12 kB	Adobe PDF	View/Open
abstract in italiano G. Ciaparrone.pdf	abstract in italiano a cura dell'autore	248.7 kB	Adobe PDF	View/Open

Show simple item record

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets