Topic outline
-
Obiettivo
Situazione COVID-19: in modalità telematica non è possibile svolgere la prova pratica in laboratorio. L'esame pertanto si svolgerà nel seguente modo. Chi ha già sostenuto la prova pratica, dovrà sostenere una prova orale simile a quella che prima si svolgeva in presenza, ma in modalità telematica sulla piattaforma Teams nel team [770M 19/20] DATA MINING - 169157. Chi invece non ha ancora sostenuto la prova pratica dovrà svolgere alcuni esercizi su KNIME. Per far ciò, è necessario che lo studente installi KNIME sul computer che utilizzerà per la connessione con Teams, in modo da poter poi condividere la finestra dell'applicazione col docente durante l'esame. In ogni caso, vi invito ad unirvi al team del corso di data mining, dove troverete già programmata il meeting dell'appello d'esame. Per quanto riguarda l'iscrizione all'esame, ignorate l'eventuale prova parziale e iscrivetevi tutti alla prova orale.
È possibile richiedere di svolgere la prova in presenza. In tal caso, potete inviare una email la docente con congruo anticipo e fissare una data per la prova che potrà anche essere diversa da quella fissata per la prova online.
In questo corso studieremo il processo di estrazione di conoscenza dalle basi di dati. Saranno analizzate le fasi di pulizia e pre-elaborazione dei dati, analisi dei dati e validazione dei risultati. Per quanto riguarda la parte di analisi dei dati, sarà dato maggior spazio alle tecniche basate su intelligenza artificiale e machine-learning, visto che le tecniche di natura più propriamente statistica sono argomento di altri insegnamenti del medesimo corso di studi. Le lezioni teoriche saranno alternate ad esercitazioni pratiche utilizzando il software KNIME Analytics Platform (https://www.knime.com/). Durante le esercitazioni pratiche verranno presentati alcuni casi di studio che sono di particolare interesse per il Digital Marketing Manager, quali la market basket analysis.
Programma del corso
• Il processo di estrazione della conoscenza dai dati: estrazione dei dati, pre-elaborazione, analisi, validazione, presentazione dei risultati.
• Dati: tipi di dati, sorgenti dei dati, pre-elaborazione dei dati, misure di similarità e dissimilarità.
• Analisi di classificazione: concetti generali, alberi decisionali, reti neurali, overfitting, valutazione dei risultati.
• Analisi di associazione: itemset frequenti, regole associative, algoritmo Apriori, valutazione dei risultati.
• Analisi di raggruppamento: metodi di partizionamento, metodi gerarchici, metodi basati su densità, validazione dei risultati.Libri di testo
- Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data Mining, Global Edition, 2nd edition. Prentice Hall. (materiale didattico addizionale)
Questo libro è il libro di testo principale, e sarà ampiamente utilizzato nelle lezioni teoriche. L'elenco delle lezioni, qui sotto in questa stessa pagina, elenca nel dettaglio le sezioni del libro che fanno parte del programma del corso.
È disponibile in Italia anche la 1° edizione del libro, che si chiama Introduction to Data Mining: Pearson New International Edition. Il prezzo della prima edizione è spesso sensibilmente inferiore a quello della seconda. Ci sono alcune differenze tra prima e seconda versione e l'ordine degli argomenti è abbastanza diverso. Ma con un po' di sforzo è possibile comunque seguire con profitto il corso seguendo la prima edizione del libro. - Rosaria Silipo. KNIME Beginners Luck.
Questo libro costituisce il materiale didattico principale per le lezioni in laboratorio.
Altra documentazione sul software KNIME si può trovare nel sito https://docs.knime.com/.
Slide
Le slide del corso sono le stesse che verranno proiettate a lezione. Sono da considerarsi un ausilio didattico e non costituiscono una alternativa al libro di testo. La speranza del docente è che, fornendole in anticipo, voi studenti stiate attenti e partecipi alla lezione, piuttosto che chini sul quaderno a prendere appunti. Alcuni argomenti che sono trattati solo nelle slide e non nel libro di testo verranno marcati adeguatamente.Vai al syllabus del corsoAltro materiale didattico
- KNIME CheatSheet for Beginners: un documento PDF che contiene, in una unica pagina, un riassunto dei nodi più importanti per chi è ai primi passi con KNIME
- Introductory Course to Data Science: una serie di lezioni online su Data Science, in formato testo e video. Sono anche presenti vari esercizi svolti.
- NodePit: un sito contenente la documentazione di tutti i nodi di KNIME (non solo del prodotto base, ma anche delle sue estensioni) e numerosi workflow già pronti di esempio
- Uno dei pochi materiali didattici in italiano su KNIME: Andrea De Mauro. Big Data Analytics: Analizzare e interpretare dati con il machine learning. Apogeo
Non fatevi traviare dal fatto che compare Big Data nel nome, si tratta di un libro di data mining. Non garantisco sulla qualità non avendolo mai letto.
Contattare il docente
- Per informazioni su come contattare il docente, consultare la pagina con il profilo del docente.
- È possibile anche utilizzare il forum associato a questo sito.
- Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data Mining, Global Edition, 2nd edition. Prentice Hall. (materiale didattico addizionale)
-
La valutazione del livello di apprendimento degli studenti sarà effettuata con il ricorso ad una prova pratica ed una successiva prova orale. La prova pratica, da svolgere in laboratorio con l'uso del software KNIME, valuterà la capacità dello studente di portare a compimento un’analisi di dati completa secondo la metodologia studiata a lezione. Pertanto, in relazione ai Descrittori di Dublino, la prova pratica è rivolta soprattutto a sondare il «saper fare» e l'«autonomia di giudizio». Rappresenta il 50% della valutazione complessiva (espressa in trentesimi). La prova orale (altro 50% della valutazione complessiva) è rivolta a sondare le conoscenze acquisite, le abilità comunicative, la padronanza del linguaggio tecnico specifico della disciplina trattata e la chiarezza espositiva. Le modalità d’esame sono le medesime per frequentanti e non frequentanti.Le date ufficiali degli appelli si riferiscono alla prova pratica. Durante la prova pratica non sarà possibile utilizzare Internet o dispositivi di comunicazione personale come cellulari e smart-wartch. Durante lo svolgimento della prova pratica verrà annunciata la data della prova orale, sulla quale comunque ci sarà una certa flessibilità. Una volta superata la prova scritta, non sarà necessario ripeterla all'interno dello stesso anno accademico, anche nel caso lo studente fallisse la prova orale.
-
Questa sezione contiene la traccia delle lezioni fatte in laboratorio, con i relativi esercizi ed insiemi di dati. I documenti PDF sono divisi in due parti: la prima parte contiene una traccia della lezione, scritta pensando al docente che la utilizzerà a lezione; la seconda parte contiene invece gli esercizi che devono svolgere gli studenti in maniera autonoma. I workflow sono file in formato knar che possono essere letti da KNIME tramite la funzione File → Import KNIME Workflow...
-
I numeri tra parentesi indicano le sezioni del libro di testo che corrispondono al contenuto della lezione.
- 8/10, 2 ore: presentazione del corso di laurea, presentazione dell'insegnamento, notazioni e preliminari, introduzione al concetto di datamining, modelli predittivi (1, 1.1, 1.2, 1.3, 1.4)
- 9/10, 3 ore: modelli descrittivi, data mining e termini correlati, tipi di attributi per i dati, introduzione al software KNIME (1.4, 1.4, 2, 2.1, 2.1.1, K 1)
- 15/10, 2 ore: tipologia dei dati da analizzare, qualità dei dati (2.1.2, 2.2, 2.2.1)
- 16/10, 3 ore: dati inconsistenti e duplicati, aggregazione, campionamento, riduzione della dimensionalità, selezione di attributi rilevanti, creazione di attributi, discretizzazine non supervisionata, entropia (2.2.1, 2.2.2, 2.3, 2.3.1, 2.3.2, 2.3.3, 2.3.4, 2.3.5, 2.3.6)
- 17/10, 3 ore: discretizzazione supervisionata, binarizzazione, normalizzazione, classificazione, alberi di decisione, l'algoritmo di Hunt (2.3.6, 2.3.7, 3, 3.1, 3.2, 3.3, 3.3.1)
- 22/10, 2 ore: lezione di laboratorio n. 1: utilizzo del software KNIME per semplici manipolazione di dati
- 23/10, 3 ore: esercitazione della lezione di laboratorio n. 1
- 24/10, 3 ore: condizioni di test, misure per valutare le condizioni di test, vantaggi e svantaggi degli alberi di classificazione, overfitting (3.3.1, 3.3.2 , 3.3.4, 3.3.6, 3.4)
- 29/10, 2 ore: fattori che influiscono sull'overfitting, stima errore di generalizzazione, selezione del modello, pre-pruning e post-pruning (3.4.1, 3.5, 3.5.1, 3.5.2, 3.5.3, 3.5.4)
- 30/10, 3 ore: lezione di laboratorio n. 2: raggruppamenti, tabelle pivot e grafici
- 31/10, 3 ore: valutazione dei modelli, analisi di associazione, itemset frequenti e regole associative, il principio Apriori, intemset frequenti massimali ed itemset chiusi, valutazione di pattern associativi (3.6, 3.6.1, 3.6.2, 3.8, 3.8.1, 3.8.2, 4, 4.1, 4.2, 4.2.1, 4.2.2, 4.2.5, 4.3, 4.3.1, 4.3.2 escluso pseudo-codice, 4.4., 4.4.1, 4.4.2, 4.7, 4.7.1)
- 05/11, 2 ore: operazione di aggregazione e sua implementazione nei modi GroupBy e Pivoting di KNIME, esercizi su alberi di decisione (esercizio 4 capitolo 3 del libro di testo)
- 06/11, 3 ore: lezione di laboratorio n. 3: alberi di classificazione
- 07/11, 3 ore: misure di interesse per pattern associativi, pattern cross-support, misure di prossimità, distanze, coefficienti di similarità, mutua informazione (4.7.1, 4.8, 2.4, 2.4.1, 2.4.2, 2.4.3, 2.4.4, 2.4.5, 2.4.6)
- 08/11, 2 ore: lezione di recupero
- 12/11, 2 ore: proprietà delle misure di prossimità, trasformazione di misure di prossimità, combinazione di misure di prossimità, analisi di raggruppamento, tipi di raggruppamento, tipi di cluster (2.4.5, 2.4.9, 2.4.10, 5, 5.1, 5.1.1, 5.1.2, 5.1.3)
- 13/11, 3 ore: lezione di laboratorio n. 4: analisi di associazione
- 14/11, 3 ore: l'algoritmo k-means, pregi e diffetti di k-means, scelta dei centroidi iniziali, k-means++, bisecting k-means, algoritmi di clustering gerarchico, distanza tra cluster, pregi e difetti degli algoritmi gerarchici (5.2, 5.2.1, 5.2.2, 5.2.4, 5.2.5, 5.3, 5.3.1, 5.3.2, 5.3.4, 5.3.5, 5.3.6)
- 20/11, 3 ore: lezione di laboratorio n. 5: analisi di raggruppamento
- 21/11, 3 ore: l'algoritmo DBSCAN, validazione dei cluster (5.4, 5.4.1, 5.4.2, 5.4.3, 5.5, 5.5.1, 5.5.2, 5.5.3, 5.5.5, 5.5.7, 5.5.8, 5.5.9)
- 22/11, 2 ore: reti neurali artificiali (6.7, 6.7.1, 6.7.2, 6.7.3, 6.8, 6.8.5)
- 29/11, 2 ore: esercitazione di recupero
- 8/10, 2 ore: presentazione del corso di laurea, presentazione dell'insegnamento, notazioni e preliminari, introduzione al concetto di datamining, modelli predittivi (1, 1.1, 1.2, 1.3, 1.4)