Descrizione

L’infrastruttura è la base su cui si poggia ogni architettura Big Data (BD): è cruciale avere i giusti strumenti per analizzare e conservare i tuoi dati all’inizio di ogni processo BD.

Obiettivi

La finalità generale del corso Big Data Infrastructure è di fornire ai partecipanti i principali concetti sulla tecnologia Big Data, con particolare riferimento ai Haddop e Spark per la gestione e lo sviluppo delle applicazioni.

Conoscenze in uscita

Al termine del corso i partecipanti avranno acquisito le seguenti conoscenze e competenze tecniche:

  • Utilizzo dei linguaggi Hadoop e Spark
  • Progetti di importazione BD nel cluster Apache Hadoop
  • Sviluppo applicazioni batch e streaming per Spark

Programma didattico

  • Big Data Infrastrcture: i componenti, i database relazionali (NoSQL), i processi in tempo reale;
  • Fondamenti di HDFS e MapReduce;
  • L’eco-sistema dei progetti Apache Appliance;
  • Introduzione ad Hadoop Distributed File System;
  • Distribuzione dei processi in un cluster;
  • Ecosystem Hadoop;
  • Problematiche risolvibili con Hadoop;
  • Apache Spark: i fondamenti;
  • Sviluppare le applicazioni con le APIs Scala
  • Spark Streaming
  • Spark SQL e Dataframes
Caratteristiche del corso
40 ore
Esercitazione di gruppo, Esercitazione individuale, Lezione frontale in laboratorio informatico
Dispense
Attestato di frequenza e profitto.