Descrizione

Apache Spark è un motore di analisi unificato per l’elaborazione di dati su vasta scala con moduli integrati per SQL, flussi di dati, machine learning ed elaborazione di grafici. Spark può essere eseguito su Apache Hadoop, Apache Mesos, Kubernetes, in modo indipendente, nel cloud e su diverse origini dati. Questo corso di Apache Spark introduce le funzionalità di elaborazione e nell’analisi dei Big Data.

Obiettivi

L’obiettivo principale del corso è fornire ai partecipanti le conoscenze teoriche e tecniche per l’elaborazione di Big Data con Apache Spark e come inserirlo in un’ottica di analisi di dati.

Conoscenze in uscita

A fine corso, i partecipanti saranno in grado di comprendere come Spark si inserisce nell’ecosistema Big Data e come utilizzare Spark per l’analisi dei dati. Il corso copre la shell Spark per l’analisi interattiva dei dati, gli interni Spark, le API Spark, Spark SQL , lo streaming Spark e l’apprendimento automatico e graphX.

Programma didattico

  • Introduzione a Spark: le componenti chiave
  • Esplorando la shell
  • RDDs: concetti e tipologie
  • Programmazione delle Spark API
  • Spark SQL
  • MLlib
  • GraphX
  • Spark Streaming
  • Spark e Hadoop
  • Performance e ottimizzazione di Spark
  • Configurazioni, monitoraggio e troubleshooting
Caratteristiche del corso
16 ore
Esercitazione individuale, Lezione frontale, Aula Virtuale
Dispense
Data Scientist, Developer
Attestato di frequenza e profitto.