Data Integration and Automatic Text Summarization: A path to more informed Business Decisions
Abstract
In recent years, there has been an explosion of data shared online. The majority of this internet information is in text format, and can be used as a source to create new knowledge. These data are frequently unstructured and, in their raw state, cannot be used for any type of analyses, resulting challenging to manage from an Information Technology (IT) perspective. But in addition to these types of data, most companies have a huge collection of structured data, acquired and built over time. The union of these two types of information represents therefore a gold mine to be able to draw as much knowledge as possible from them. Because of this, the so-called Data Pre-processing (DPP), an important stage in the Data Mining process, allows significant manipulations on them, in order to make them useable for any subsequent elaboration procedure. The general DPP steps are the Data Cleansing, Data Integration, Data Reduction, and Data Transformation, while guaranteeing the protection of the privacy. This research focused on two different applications related to structured and unstructured data through respectively a focus on a Data Integration (DI) challenge, and one on the Automatic Text Summarization (ATS) task, whose algorithm evaluation metrics were explored. One of the most challenging issues in DI, is the research for automatic or semi-automatic methodologies, since these techniques often require the expertise of a domain specialist who can direct the process and improve the results. However, in the literature, there are not many fully or semi-automatic DI approaches unless they include experts with specific IT-skills. So, in this study, by the assistance of an intermediary figure (the Company Manager), who is not necessary skilled in IT, using an Information Retrieval methodology, clustering methods, and a trained neural network, we have built a semi-automatic DI process. This process is capable of reducing persistent conflicts in data, and ensuring a unified view of them, respecting the original constraints of the datasets and guaranteeing a high-quality outcome for Business Intelligence evaluations. At the same time, having the ability to reduce the amount of text from which to extract information is essential, when there are textual data sources involved. This is important to recover the key concepts, but also to speed up the analysis systems. In particular, ATS is a interesting challenge of Natural Language Processing. The primary issue is that there are currently a number of algorithms that attempt to reduce documents, using both statistical techniques (Extractive algorithms) and Artificial Intelligence methods (Abstractive algorithms). However, several metrics primarily based on the overlap analysis of n-grams such as the ROUGE, which is the most used, are applied to assess the quality of the results. Therefore, determining if these metrics are efficient, and whether they really enable to compare the quality of the outcomes of the various Text Summarization (TS) algorithms, is the focus of the second research topic. [edited by the Author] Negli ultimi anni c'è stata un'esplosione dei dati condivisi on-line. La maggior parte di queste informazioni presenti su Internet è in formato testuale, e può essere utilizzata come fonte per produrre nuova conoscenza. Questi dati spesso non sono strutturati e, allo stato grezzo, non possono essere utilizzati per nessun tipo di analisi, risultando così difficili da gestire dal punto di vista dell'Information Technology (IT). Ma oltre a questi tipi di dati, la maggior parte delle aziende dispone di una vasta raccolta di dati strutturati, acquisiti e costruiti nel tempo. L’unione di queste due tipologie di informazioni rappresenta quindi una miniera d’oro per poterne trarre quanta più conoscenza possibile. Per tale motivo, il Data Pre-processing (DPP), una fase importante del processo di Data Mining, consente importanti manipolazioni sugli stessi, al fine di renderli fruibili per eventuali elaborazioni successive. I passaggi generali del DPP sono la Pulizia, l'Integrazione, la Riduzione e la Trasformazione dei dati, garantendo nel contempo la protezione della privacy. Questo lavoro di ricerca si è concentrato su due diverse applicazioni relative ai dati strutturati e non strutturati, attraverso rispettivamente un focus su Data Integration (DI) e uno sull’Automatic Text Summarization (ATS), di cui sono state esplorate le metriche di valutazione degli algoritmi. Una delle sfide più impegnative per la DI, è la ricerca di metodologie completamente o parzialmente automatiche, poiché queste tecniche spesso richiedono l'esperienza di uno specialista del dominio, in grado di dirigere il processo e migliorarne i risultati. Tuttavia, in letteratura, non sono molti gli approcci di DI completamente o parzialmente automatici, a meno che non includano esperti con specifiche competenze informatiche. Quindi, in questo studio, attraverso l'assistenza di una figura intermedia (il Company Manager), che non ha necessariamente competenze informatiche, utilizzando una metodologia di Information Retrieval, dei metodi di clustering e una rete neurale addestrata, abbiamo costruito un processo di DI semi-automatico. Esso è in grado sia di ridurre i conflitti persistenti nei dati, sia di garantire una visione unificata degli stessi, rispettando i vincoli originali dei dataset e fornendo un risultato di alta qualità per le valutazioni di Business Intelligence. Allo stesso tempo, avere la capacità di ridurre la quantità di testo da cui estrarre informazioni è fondamentale, quando le fonti dati coinvolte sono testuali. Ciò è importante per recuperare i concetti chiave, ma anche per velocizzare i sistemi di analisi. In particolare, l'ATS è una sfida interessante del Natural Language Processing. Il problema principale è che attualmente esistono numerosi algoritmi che provano a riassumere i documenti, utilizzando sia tecniche statistiche (Algoritmi estrattivi) sia metodi di Artificial Intelligence (Algoritmi astrattivi). Tuttavia, per valutare la qualità dei risultati vengono utilizzate diverse metriche basate principalmente sull'analisi della sovrapposizione di n-grammi come la metrica ROUGE, che è quella più usata allo scopo. Pertanto, l'obiettivo del secondo argomento di ricerca è stato quello di determinare se tali metriche sono efficienti e se consentono davvero di confrontare la qualità dei risultati dei vari algoritmi di Text Summarization. [a cura dell'Autore]