Plan du cours

Introduction :

  • Apache Spark dans Hadoop Ecosystème
  • Courte introduction pour python, scala

Bases (théorie) :

  • Architecture
  • RDD
  • Transformation et actions
  • Étape, tâche, dépendances

Utilisation de l'environnement Databricks pour comprendre les bases (atelier pratique) :

  • Exercices utilisant l'API RDD
  • Fonctions d'action et de transformation de base
  • PairRDD
  • Joindre
  • Stratégies de mise en cache
  • Exercices utilisant l'API DataFrame
  • SparkSQL
  • DataFrame : sélectionner, filtrer, grouper, trier
  • UDF (fonction définie par l'utilisateur)
  • Examen de l'API DataSet
  • Streaming

Utilisation de l'environnement AWS pour comprendre le déploiement (atelier pratique) :

  • Notions de base sur AWS Glue
  • Comprendre les différences entre AWS EMR et AWS Glue
  • Exemples de travaux dans les deux environnements
  • Comprendre les avantages et les inconvénients

Extra :

  • Introduction à l'orchestration Apache Airflow

Pré requis

Compétences en programmation (de préférence python, scala)

SQL fondamentaux

 21 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (3)

Cours à venir

Catégories Similaires