Corsi di Laurea Corsi di Laurea Magistrale Corsi di Laurea Magistrale
a Ciclo Unico
Scuola di Scienze
DATA SCIENCE
Insegnamento
STATISTICAL METHODS FOR HIGH DIMENSIONAL DATA
SCP9087918, A.A. 2019/20

Informazioni valide per gli studenti immatricolati nell'A.A. 2018/19

Principali informazioni sull'insegnamento
Corso di studio Corso di laurea magistrale in
DATA SCIENCE
SC2377, ordinamento 2017/18, A.A. 2019/20
N0
porta questa
pagina con te
Crediti formativi 6.0
Tipo di valutazione Voto
Denominazione inglese STATISTICAL METHODS FOR HIGH DIMENSIONAL DATA
Sito della struttura didattica http://datascience.scienze.unipd.it/2019/laurea_magistrale
Dipartimento di riferimento Dipartimento di Matematica
Obbligo di frequenza No
Lingua di erogazione INGLESE
Sede PADOVA
Corso singolo È possibile iscriversi all'insegnamento come corso singolo
Corso a libera scelta È possibile utilizzare l'insegnamento come corso a libera scelta

Docenti
Responsabile BRUNO SCARPA SECS-S/01

Dettaglio crediti formativi
Tipologia Ambito Disciplinare Settore Scientifico-Disciplinare Crediti
CARATTERIZZANTE Aziendale-organizzativo SECS-S/01 6.0

Organizzazione dell'insegnamento
Periodo di erogazione Primo semestre
Anno di corso II Anno
Modalità di erogazione frontale

Tipo ore Crediti Ore di
didattica
assistita
Ore Studio
Individuale
LEZIONE 6.0 48 102.0

Calendario
Inizio attività didattiche 30/09/2019
Fine attività didattiche 18/01/2020
Visualizza il calendario delle lezioni Lezioni 2019/20 Ord.2017

Commissioni d'esame
Nessuna commissione d'esame definita

Syllabus
Prerequisiti: Statistical learning, Stochastic methods
Conoscenze e abilita' da acquisire: This course aims at introducing the students to the main statistical features and concepts underlying the analysis of high dimensional data, as well as providing statistical solutions to problems arising when analysing real dataon many different fields (business, society, medicine, psycology, physics, etc).
Modalita' di esame: Prova pratica e prova orale
Criteri di valutazione: Students will be evaluated according to their level of knowledge of the key concepts in analysing high dimensional data and their ability to apply them to real cases.
Contenuti: Every year some of the following topics will be presented, according also to the preferences of the students.

1. REGRESSION MODELS FOR HIGH-DIMENSIONAL DATA
1.1 Incremental algorithms with limited memory, stochastic gradient
descent, inference
1.2 Sparsity, penalization inducing sparsity
1.3 Recall of Lasso and Elastic-Net for GLM
1.4 Extensions: adaptation, fusion, dealing with categorical variables
1.5 Group LASSO
1.6 Non-convex penalties

2. STATISTICAL ANALYSIS OF NETWORK DATA
2.1 Introduction to network structures of data
2.2 Network and nodes indicators
2.3 Community detection
2.4 Basics statistical models and inference (Erdos-Renyi, p1, ERGM)
2.5 Bayesian models (Stochastic block models, Latent space models)

3. STATISTICAL METHODS FOR TEXT MINING
3.1 Introduction
3.2 Data preparation and preprocessing (text scanning, stemming, tagging)
3.2 Dimensionality reduction and t-SNE
3.3 Topic models and Latent Dirichlet Allocation
3.4 Classification models
3.5 Sentiment analysis and iSA (integrated Sentiment Analysis

4. CLUSTERING
4.1 Introduction to clustering and recall of basic algorithms
(hierarchical and non-hierarchical
4.2 Model-based clustering
4.3 Gaussian mixtures

5. TOPICS IN STATISTICAL LEARNING AND DATA MINING METHODS
5.1 Generalization of boosting: Adaboost as additive logistic model,
Gradient boosting and XGboosting
5.2 Association rules and Market basket analysis

6. COMPUTATIONAL ISSUES
Attivita' di apprendimento previste e metodologie di insegnamento: Lezioni frontali. Esercitazioni in laboratorio
Eventuali indicazioni sui materiali di studio: The teacher in charge will provide lecture notes, exercises and scientific papers
Testi di riferimento:

Didattica innovativa: Strategie di insegnamento e apprendimento previste
  • Lecturing
  • Laboratory
  • Problem based learning
  • Case study
  • Interactive lecturing
  • Working in group
  • Questioning
  • Action learning
  • Story telling
  • Problem solving

Didattica innovativa: Software o applicazioni utilizzati
  • Latex

Obiettivi Agenda 2030 per lo sviluppo sostenibile
Istruzione di qualita'