Utilizza questo identificativo per citare o creare un link a questo documento:
http://elea.unisa.it/xmlui/handle/10556/6496
Titolo: | High-dimensional time series clustering: nonparametric trend estimation |
Autore: | Amendola, Alessandra Giordano, Francesco Feo, Giuseppe |
Parole chiave: | Time series;Nonparametric;Trend;High-dimensionality |
Data: | 19-ott-2021 |
Abstract: | The era of big data has produced extensive methodologies for extracting
features/patterns from complex time series data. From a data science perspective these methodologies have emerged from multiple disciplines, including statistics, signal processing/engineering, and computer science. Clustering is a solution for classifying enormous data when there is not any previous
knowledge about classes obtaining numerosity reduction for instance.
The goal of clustering is to identify structure in an unlabelled data set
by organizing data into homogeneous groups where the within-group dissimilarity is minimized and the between-group dissimilarity is maximized. Data
are called static if all their feature values do not change with time, or the
change negligible. The most of clustering analyses has been performed on
static data. Just like static data clustering, time series clustering requires a
clustering algorithm or procedure to form clusters given a set of unlabelled
data objects and the choice of clustering algorithm depends both on the type
of data available and on the particular purpose and application.
Considering time series as discrete objects, conventional clustering procedures can be used to cluster a set of individual time series with respect to
their similarity such that similar time series are grouped into the same cluster. From this perspective time series clustering techniques have been developed, most of them critically depend on the choice of distance (i.e., similarity) measure. In general, the literature defines three different approaches to
cluster time series: (i) Shape-based clustering, clustering is performed based
on the shape similarity, where shapes of two time series are matched using
a non-linear stretching and contracting of the time axes; (ii) Feature-based
clustering, raw time series are transformed into the feature vector of lower dimension where, for each time series a fixed-length and an equal-length feature
vector is created (usually a set of statistical characteristics); (iii) Model-based
clustering assumes a mathematical model for each cluster and attempts to
fit the data into the assumed model. .. [edited by Author] L’era dei big data ha prodotto metodologie estese per estrarre caratteristiche/pattern da dati di serie temporali complesse. Dal punto di vista della scienza dei dati, queste metodologie sono emerse da pi`u discipline, tra cui statistica, elaborazione/ingegneria dei segnali e informatica. Il clustering `e una soluzione per classificare dati enormi quando non c’`e alcuna conoscenza precedente sulle classi, ottendo cos`ı la riduzione della numerosit`a ad esempio. L’obiettivo del clustering `e identificare la struttura in un set di dati senza etichetta organizzando i dati in gruppi omogenei in cui la dissomiglianza all’interno del gruppo `e ridotta al minimo e la dissomiglianza tra i gruppi `e massimizzata. I dati sono chiamati statici se tutti i loro valori delle caratteristiche non cambiano nel tempo o se il cambiamento `e trascurabile. La maggior parte delle analisi di clustering `e stata eseguita su dati statici. Proprio come il clustering di dati statici, il clustering di serie temporali richiede un algoritmo o una procedura di clustering per formare cluster dato un insieme di oggetti di dati non etichettati e la scelta dell’algoritmo di clustering dipende sia dal tipo di dati disponibili che dal particolare scopo e dall’applicazione. Considerando le serie temporali come oggetti discreti, le procedure di clustering convenzionali possono essere utilizzate per raggruppare un insieme di serie temporali individuali rispetto alla loro somiglianza in modo tale che serie temporali simili siano raggruppate nello stesso cluster. Da questa prospettiva sono state sviluppate tecniche di clustering di serie temporali, la maggior parte delle quali dipende in modo critico dalla scelta della misura della distanza (cio`e della somiglianza). In generale, la letteratura definisce tre diversi approcci alle serie temporali di cluster: (i) Shape-based clustering, il clustering viene eseguito in base alla somiglianza delle forme, in cui le forme di due serie temporali sono abbinate utilizzando contrazioni e decontrazioni non lineari degli assi temporali; (ii) Feature-based clustering, le serie temporali grezze vengono trasformate nel vettore di caratteristiche di dimensione inferiore dove, per ogni serie temporale, viene creato un vettore di caratteristiche di lunghezza fissa e uguale (di solito un insieme di caratteristiche statistiche ); (iii) Model-based clustering assume un modello matematico per ciascun cluster e tenta di adattare i dati al modello assunto. .. [a cura dell'Autore] |
Descrizione: | 2019 - 2020 |
URI: | http://elea.unisa.it:8080/xmlui/handle/10556/6496 http://dx.doi.org/10.14273/unisa-4568 |
È visualizzato nelle collezioni: | Economia e politiche dei mercati e delle imprese |
File in questo documento:
File | Descrizione | Dimensioni | Formato | |
---|---|---|---|---|
tesi_di_dottorato_G_Feo.pdf | tesi di dottorato | 993,86 kB | Adobe PDF | Visualizza/apri |
abstract in inglese G. Feo.pdf | abstract in inglese a cura dell'autore | 226,09 kB | Adobe PDF | Visualizza/apri |
abstract in italiano G. Feo.pdf | abstract in italiano a cura dell'autore | 208,37 kB | Adobe PDF | Visualizza/apri |
Tutti i documenti archiviati in DSpace sono protetti da copyright. Tutti i diritti riservati.