Modelli supervisionati e non supervisionati per il Data Mining
Sign up for free
Listen to this episode and many more. Enjoy the best podcasts on Spreaker!
Download and listen anywhere
Download your favorite episodes and enjoy them, wherever you are! Sign up or log in now to access offline listening.
Description
Esistono due categorie di metodi per poter effettuare il processo di Data Mining, e cioè di estrazione dei dati. I modelli “supervisionati”, che sono metodi che vengono applicati nel momento...
show moreI modelli “supervisionati”, che sono metodi che vengono applicati nel momento in cui nel data set di partenza esiste una variabile di raggruppamento, o etichetta, e i modelli “non supervisionati” che non hanno questa variabile di raggruppamento.
I supervisionati si dividono in altre due sottocategorie di metodi di estrazione e sono di “Classificazione” o di “Regressione” in base alla variabile di raggruppamento se di tipo cardinale o numerico quantitativo.
Nei metodi non supervisionati, quando non esiste la variabile di raggruppamento, abbiamo modelli di Clustering o modelli di Regole di associazione.
La fase preliminare di estrazione dei dati è il momento più critico in quanto è caratterizzata dalla preparazione del dato che passa da alcuni step prevalenti; l’acquisizione del dato, la fase di Parsing, quindi di conversione dei dati in una unica struttura e formato, la fase di controllo, che deve prendere in considerazione i casi mancanti e le anomalie.
Tra i modelli supervisionati di classificazione esiste il metodo KNN, o del vicino più prossimo, che si basa sulle caratteristiche vicine al dato considerato. Un oggetto è classificato in base alla maggioranza dei voti dei suoi vicini.
Il metodo degli alberi di classificazione, o decisione, che rappresenta un albero di classificatori con nodi interni binari, chiamati foglie, che dividono i campioni in classi di etichette omogenee, stratificando i dati.
I modelli supervisionati di regressione possono essere lineari, quindi una stima basata su una variabile dipendente e una o più variabili indipendenti, e a vettori di supporto, (Support Vector Machine) che costruisce nuovi esempi ad una delle classi possibili ottenendo un classificatore binario non probabilistico.
I principali ambiti di applicazione possono essere per classificare i comportamenti di acquisto, per una diagnosi medica, per la sicurezza web o per il rilevamento dello spam.
Invece i modelli non supervisionati, quindi senza variabile di raggruppamento, vengono utilizzati per la sentiment analysis, per analizzare l’e-commerce o per valutare i dati in store.
L’esempio più calzante è il modello basket analysis che permette di analizzare le abitudini di acquisto dei clienti identificando le relazioni esistenti tra prodotti acquistati e differenti consumatori.
Anche il Clustering figura tra i metodi non supervisionati, e consiste nel raggruppare dati omogenei basandosi sulla somiglianza, e quindi la distanza tra di loro, in uno spazio multidimensionale.
In ultimo ci sono metodi di text mining che si applicano a testi non strutturati, estraendo informazioni a valore aggiunto convertendoli in linguaggio strutturato e formale.
Si utilizzano per pagine web, email, social, agenzie stampa, chat ecc..
in questi casi i campi di applicazione sono la brand reputation, la sentiment analysis, la seo e il web marketing.
Information
Author | Valerio Maria Murgolo |
Organization | Valerio Maria Murgolo |
Website | - |
Tags |
Copyright 2024 - Spreaker Inc. an iHeartMedia Company