In: Data Science & Machine Learning
Introduzione al Visual Machine Learning “veloce” con Orange (per aziende)
In questi ultimi anni Orange si è imposto come tool di Machine Learning “leggero” (small-scale), facile da imparare, interamente grafico e senza necessità di scrivere codice (visual programming). In questo modo Orange ha abbattuto i tempi di apprendimento del Machine Learning, pur conservando l’affidabilità ed il rigore dei tool tradizionali. Orange è open-source e gratuito e supporta tutte le principali funzionalità del moderno Machine Learning. Orange è in continua evoluzione ed i suoi utenti godono del supporto di una comunità viva e partecipe. Orange, infine, ha un’eccellente e ricca documentazione on-line.
Il corso sarà interamente eseguito dall’interfaccia grafica interattiva di Orange (vers. 3.28+), senza slide, e mostrerà diversi casi d’uso di Machine Learning per aziende e business, sia di tipo descrittivo che predittivo, supervisionato e non. Si presterà anche attenzione agli aspetti prestazionali e di scala di Orange. Da ultimo, si confronteranno le sue caratteristiche funzionali e tecniche con quelle dei principali tool “tradizionali” di Machine Learning (R e Python).
CONTENUTI:
- Introduzione:
- installare Orange;
- cos’è il visual Machine Learning;
- uno sguardo all’interfaccia grafica di Orange (con canvas);
- la logica a data workflow e widget interattivi di Orange;
- le tipologie di widget: data, visualize, model, evaluate, unsupervised;
- Importare i dati e pre-elaborarli in Orange:
- importare i dataset: file testuali, file .csv, tabelle SQL, URL, ecc;
- integrare, fondere e concatenare i dataset;
- pre-elaborare i dataset: standardizzazione, normalizzazione, ecc;
- aggiungere righe e colonne al dataset importato;
- Capire i dati (Exploratory Data Analysis) in Orange:
- selezionare sottoinsiemi di righe e/o colonne del dataset;
- ordinare e filtrare i dati;
- analizzare i dataset tramite misure di centralità e variabilità;
- scoprire correlazioni tra le variabili, trend e pattern;
- creare grafici utili ed accattivanti, sia tipici che innovativi;
- Trattare i dati in Orange:
- gestire gli outlier nei dati: varie opzioni;
- gestire i dati mancanti: varie opzioni;
- selezionare le variabili di interesse;
- Il Machine Learning predittivo in Orange:
- com’è organizzato;
- configurare un algoritmo di classificazione: regressione logistica, albero, ensemble, rete neurale, knn, Naive Bayes, SVM;
- configurare un algoritmo di previsione numerica: regressione lineare, albero, ensemble, knn, rete neurale;
- campionare e generare dati casuali in Orange;
- partizionare il dataset in training e test;
- analizzare le prestazioni predittive degli algoritmi tramite metriche, matrici di confusione, curve ROC e diagrammi lift;
- Il Machine Learning non supervisionato in Orange:
- ridurre le dimensioni del dataset con la Principal Component Analysis (PCA);
- clusterizzare i dati con k-means e clustering gerachico con i tipi di “distanza” disponibili;
- visualizzare dataset ad alta dimensionalità con il recente algoritmo t-SNE;
- Esame approfondito di un Caso d’Uso in Orange: Text Mining, Sentiment Analysis e Twitter data.
- Varie e conclusioni:
- gli ambiti di Machine Learning small-scale più adatti ad Orange
- le prestazioni informatiche di Orange e come ottimizzarle;
- confronto di Orange con R e Python;
- come Orange si integra con Python ed R;
- guida alla ricca documentazione on-line di Orange: video tutorial, esempi, pagine web.
Durata
- 7 ore
Prerequisiti
Durata: 7 ore
Solo su richiesta
Questo corso è erogabile solo su richiesta, in modalità on-line (con formazione a distanza), oppure on-site, sempre personalizzati secondo le esigenze.