High-dimensional time series clustering: nonparametric trend estimation

Feo, Giuseppe

Please use this identifier to cite or link to this item: http://elea.unisa.it/xmlui/handle/10556/6496

Title:	High-dimensional time series clustering: nonparametric trend estimation
Authors:	Amendola, Alessandra Giordano, Francesco Feo, Giuseppe
Keywords:	Time series;Nonparametric;Trend;High-dimensionality
Issue Date:	19-Oct-2021
Abstract:	The era of big data has produced extensive methodologies for extracting features/patterns from complex time series data. From a data science perspective these methodologies have emerged from multiple disciplines, including statistics, signal processing/engineering, and computer science. Clustering is a solution for classifying enormous data when there is not any previous knowledge about classes obtaining numerosity reduction for instance. The goal of clustering is to identify structure in an unlabelled data set by organizing data into homogeneous groups where the within-group dissimilarity is minimized and the between-group dissimilarity is maximized. Data are called static if all their feature values do not change with time, or the change negligible. The most of clustering analyses has been performed on static data. Just like static data clustering, time series clustering requires a clustering algorithm or procedure to form clusters given a set of unlabelled data objects and the choice of clustering algorithm depends both on the type of data available and on the particular purpose and application. Considering time series as discrete objects, conventional clustering procedures can be used to cluster a set of individual time series with respect to their similarity such that similar time series are grouped into the same cluster. From this perspective time series clustering techniques have been developed, most of them critically depend on the choice of distance (i.e., similarity) measure. In general, the literature defines three different approaches to cluster time series: (i) Shape-based clustering, clustering is performed based on the shape similarity, where shapes of two time series are matched using a non-linear stretching and contracting of the time axes; (ii) Feature-based clustering, raw time series are transformed into the feature vector of lower dimension where, for each time series a fixed-length and an equal-length feature vector is created (usually a set of statistical characteristics); (iii) Model-based clustering assumes a mathematical model for each cluster and attempts to fit the data into the assumed model. .. [edited by Author] L’era dei big data ha prodotto metodologie estese per estrarre caratteristiche/pattern da dati di serie temporali complesse. Dal punto di vista della scienza dei dati, queste metodologie sono emerse da pi`u discipline, tra cui statistica, elaborazione/ingegneria dei segnali e informatica. Il clustering `e una soluzione per classificare dati enormi quando non c’`e alcuna conoscenza precedente sulle classi, ottendo cos`ı la riduzione della numerosit`a ad esempio. L’obiettivo del clustering `e identificare la struttura in un set di dati senza etichetta organizzando i dati in gruppi omogenei in cui la dissomiglianza all’interno del gruppo `e ridotta al minimo e la dissomiglianza tra i gruppi `e massimizzata. I dati sono chiamati statici se tutti i loro valori delle caratteristiche non cambiano nel tempo o se il cambiamento `e trascurabile. La maggior parte delle analisi di clustering `e stata eseguita su dati statici. Proprio come il clustering di dati statici, il clustering di serie temporali richiede un algoritmo o una procedura di clustering per formare cluster dato un insieme di oggetti di dati non etichettati e la scelta dell’algoritmo di clustering dipende sia dal tipo di dati disponibili che dal particolare scopo e dall’applicazione. Considerando le serie temporali come oggetti discreti, le procedure di clustering convenzionali possono essere utilizzate per raggruppare un insieme di serie temporali individuali rispetto alla loro somiglianza in modo tale che serie temporali simili siano raggruppate nello stesso cluster. Da questa prospettiva sono state sviluppate tecniche di clustering di serie temporali, la maggior parte delle quali dipende in modo critico dalla scelta della misura della distanza (cio`e della somiglianza). In generale, la letteratura definisce tre diversi approcci alle serie temporali di cluster: (i) Shape-based clustering, il clustering viene eseguito in base alla somiglianza delle forme, in cui le forme di due serie temporali sono abbinate utilizzando contrazioni e decontrazioni non lineari degli assi temporali; (ii) Feature-based clustering, le serie temporali grezze vengono trasformate nel vettore di caratteristiche di dimensione inferiore dove, per ogni serie temporale, viene creato un vettore di caratteristiche di lunghezza fissa e uguale (di solito un insieme di caratteristiche statistiche ); (iii) Model-based clustering assume un modello matematico per ciascun cluster e tenta di adattare i dati al modello assunto. .. [a cura dell'Autore]
Description:	2019 - 2020
URI:	http://elea.unisa.it:8080/xmlui/handle/10556/6496 http://dx.doi.org/10.14273/unisa-4568
Appears in Collections:	Economia e politiche dei mercati e delle imprese

Files in This Item:

File	Description	Size	Format
tesi_di_dottorato_G_Feo.pdf	tesi di dottorato	993.86 kB	Adobe PDF	View/Open
abstract in inglese G. Feo.pdf	abstract in inglese a cura dell'autore	226.09 kB	Adobe PDF	View/Open
abstract in italiano G. Feo.pdf	abstract in italiano a cura dell'autore	208.37 kB	Adobe PDF	View/Open

Show full item record

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets