Show simple item record

dc.date.accessioned2023-02-24T12:35:20Z
dc.date.available2023-02-24T12:35:20Z
dc.description2019 - 2020it_IT
dc.description.abstractIn recent years, deep learning (DL) has obtained numerous successes in analyzing complex data, such as images or audio. A particularly recent area of application is the analysis of videos. This thesis focuses on the application of deep learning algorithm to two video analysis tasks: Multiple Object Tracking (MOT) and Face-based Video Retrieval (FBVR). The first main part of the thesis presents an in-depth survey of the state of the art of DL-based MOT algorithms. This is the first comprehensive survey specifically on the use of DL for MOT, focusing on 2D frames extracted from single-camera videos. I identify the four main steps of a MOT algorithm and describe the various DL techniques used in the literature in each of those four steps. I also collect and compare results obtained by existing algorithms on the most common MOT datasets and I analyze the most successful techniques employed. Finally, I present a discussion about the open issues of current MOT algorithms and the possible solutions and future directions of research. The second part of the thesis focuses instead on the task of FBVR. I present a novel pipeline for the retrieval of unconstrained multi-shot videos using faces, specifically in the context of television-like videos. Since no existing dataset in the literature is appropriate for an end-to-end evaluation of the proposed pipeline, I build a large-scale video dataset by adapting the VoxCeleb2 dataset to the task of FBVR. I compare and evaluate numerous DL-based approaches for the various steps in pipeline, such as shot detection, face detection and face recognition, and I describe the advantages and disadvantages of each employed technique. The best-performing configuration of the pipeline obtains 97.25% Mean Average Precision on the independent test set, while performing each query on thousands of videos in less than 0.5 seconds. Finally, I describe the integration of the presented pipeline into the commercial software TVBridge, developed by CEDEO. [edited by Author]
dc.description.abstractNegli ultimi anni il deep learning (DL) ha avuto molto successo nell’analisi di dati complessi, quali immagini o audio. Un’area di applicazione particolarmente recente `e l’analisi di video. Questa tesi tratta dell’applicazione di algoritmi di deep learning a due task di analisi video: il Multiple Object Tracking (MOT) e il Face-based Video Retrieval (FBVR). La prima parte della tesi presenta un’approfondita revisione della letteratura sullo stato dell’arte di algoritmi MOT basati su DL. Questa `e la prima revisione della letteratura a concentrarsi specificamente sull’utilizzo del DL per il MOT, in particolare per frame 2D estratti da video registrati con una singola videocamera. Ho identificato i quattro principali passi di un algoritmo MOT e descritto le varie tecniche di DL utilizzate in letteratura per ciascuno di questi quattro passi. Ho raccolto e confrontato i risultati ottenuti da algoritmi in letteratura sui pi`u comuni dataset MOT e ho analizzato le migliori tecniche utilizzate. Presento infine una discussione riguardo ai problemi aperti degli algoritmi MOT esistenti, insieme alle possibili soluzioni e alle direzioni future di ricerca. La seconda parte della tesi si concentra invece sul task del FBVR. Ho presentato una pipeline innovativa per la ricerca di video multi-shot senza restrizioni (unconstrained) tramite l’utilizzo di facce, nel contesto specifico di video di tipo televisivo. Poich´e nessun dataset esistente in letteratura era appropriato per una valutazione esaustiva della pipeline proposta, ho costruito un dataset di video di grandi dimensioni riadattando il dataset VoxCeleb2 al task del FBVR. Ho confrontato e valutato diversi approcci basati su DL per i vari passi della pipeline, tra cui identificazione degli shot, identificazione delle facce e riconoscimento facciale. Ho inoltre descritto vantaggi e svantaggi di ciascuna tecnica utilizzata. La migliore configurazione della pipeline ha ottenuto una Mean Average Precision pari al 97.25% sul test set indipendente, il tutto eseguendo ciascuna query su migliaia di video in meno di 0.5 secondi. Ho infine descritto il processo di integrazione della pipeline nel software commerciale TVBridge, sviluppato da CEDEO. [a cura dell'Autore]it_IT
dc.language.isoenit_IT
dc.subject.miurINF/01 INFORMATICAit_IT
dc.contributor.coordinatoreAntonelli, Valerioit_IT
dc.description.cicloXXXIII cicloit_IT
dc.contributor.tutorTagliaferri, Robertoit_IT
dc.identifier.DipartimentoScienze aziendali – Management & innovation systemsit_IT
dc.titleMultiple Object Tracking and Face-based Video Retrieval: Applications of Deep Learning to Video Analysisit_IT
dc.contributor.authorCiaparrone, Gioele
dc.date.issued2021-10-11
dc.identifier.urihttp://elea.unisa.it:8080/xmlui/handle/10556/6450
dc.identifier.urihttp://dx.doi.org/10.14273/unisa-4522
dc.typeDoctoral Thesisit_IT
dc.subjectDeep learningit_IT
dc.subjectMultiple object trackingit_IT
dc.subjectVideo retrievalit_IT
dc.publisher.alternativeUniversita degli studi di Salernoit_IT
 Find Full text

Files in this item

Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record