Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction :
- Apache Spark dans Hadoop Ecosystème
- Courte introduction pour python, scala
Bases (théorie) :
- Architecture
- RDD
- Transformation et actions
- Étape, tâche, dépendances
Utilisation de l'environnement Databricks pour comprendre les bases (atelier pratique) :
- Exercices utilisant l'API RDD
- Fonctions d'action et de transformation de base
- PairRDD
- Joindre
- Stratégies de mise en cache
- Exercices utilisant l'API DataFrame
- SparkSQL
- DataFrame : sélectionner, filtrer, grouper, trier
- UDF (fonction définie par l'utilisateur)
- Examen de l'API DataSet
- Streaming
Utilisation de l'environnement AWS pour comprendre le déploiement (atelier pratique) :
- Notions de base sur AWS Glue
- Comprendre les différences entre AWS EMR et AWS Glue
- Exemples de travaux dans les deux environnements
- Comprendre les avantages et les inconvénients
Extra :
- Introduction à l'orchestration Apache Airflow
Pré requis
Compétences en programmation (de préférence python, scala)
SQL fondamentaux
21 Heures
Nos clients témoignent (3)
Séance pratique / devoirs
Poornima Chenthamarakshan - Intelligent Medical Objects
Formation - Apache Spark in the Cloud
Traduction automatique
1. Équilibre approprié entre les concepts de haut niveau et les détails techniques. 2. Andras est très compétent dans son enseignement. 3. Exercice
Steven Wu - Intelligent Medical Objects
Formation - Apache Spark in the Cloud
Traduction automatique
Découvrez le streaming Spark, Databricks et AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Formation - Apache Spark in the Cloud
Traduction automatique