Formation A Practical Introduction to Stream Processing
Stream Processing fait référence au traitement en temps réel de «données en mouvement», c’est-à-dire à l’exécution de calculs sur les données reçues. Ces données sont lues comme des flux continus à partir de sources de données telles que des événements de capteurs, l’activité des utilisateurs du site Web, des transactions financières, des balayages de carte de crédit, des flux de clics, etc. Stream Processing infrastructures de Stream Processing permettent de lire de grands volumes de données entrantes et fournissent des informations précieuses presque instantanément.
Au cours de cette formation en direct animée par un instructeur (sur site ou à distance), les participants apprendront à configurer et à intégrer différents cadres de Stream Processing avec des systèmes de stockage de données volumineux existants ainsi que des applications logicielles et microservices connexes.
À la fin de cette formation, les participants seront en mesure de:
- Installez et configurez différents frameworks de Stream Processing , tels que Spark Streaming et Kafka Streaming.
- Comprendre et sélectionner le cadre le plus approprié pour le travail.
- Traitement des données en continu, simultanément et enregistrement par enregistrement.
- Intégrez les solutions de Stream Processing continu aux bases de données, aux entrepôts de données, aux lacs de données, etc. existants
- Intégrez la bibliothèque de traitement de flux la plus appropriée aux applications d'entreprise et aux microservices.
Public
- Les développeurs
- Architectes logiciels
Format du cours
- Partie de conférence, partie de discussion, exercices et exercices intensifs
Remarques
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
Plan du cours
Introduction
- Traitement en flux et traitement par lots
- Traitement en flux axé sur l'analyse
Vue d'ensemble Cadres et Programming Languages
- Spark Streaming (Scala)
- Kafka Streaming (Java)
- Flink
- Storm
- Comparaison des caractéristiques et des points forts de chaque framework
Aperçu des sources de données
- Données en direct sous la forme d'une série d'événements au fil du temps
- Sources de données historiques
Options de déploiement
- Dans le nuage (AWS, etc.)
- Sur site (nuage privé, etc.)
Pour commencer
- Mise en place de l'environnement de développement
- Installation et configuration
- Évaluer vos Data Analysis besoins
Exploiter un cadre de diffusion en continu
- Intégration du cadre de diffusion en continu avec des outils Big Data
- Traitement des événements Stream Processing (ESP) et traitement des événements complexes (CEP)
- Transformer les données d'entrée
- Inspection des données de sortie
- Intégration du cadre Stream Processing aux applications et Microservices outils existants
Dépannage
Résumé et conclusion
Pré requis
- Programming expérience dans n'importe quel langage
- Une compréhension des concepts Big Data (Hadoop, etc.)
Les formations ouvertes requièrent plus de 3 participants.
Formation A Practical Introduction to Stream Processing - Booking
Formation A Practical Introduction to Stream Processing - Enquiry
A Practical Introduction to Stream Processing - Demande d'informations consulting
Demande d'informations consulting
Nos clients témoignent (1)
Une pratique suffisante, le formateur est compétent
Chris Tan
Formation - A Practical Introduction to Stream Processing
Traduction automatique
Cours à venir
Cours Similaires
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 HeuresCe cours s'adresse aux développeurs et aux scientifiques des données qui souhaitent comprendre et mettre en œuvre l'IA dans leurs applications. Une attention particulière est accordée à l'analyse des données, à l'IA distribuée et au traitement du langage naturel.
Apache Kafka Connect
7 HeuresCette formation en direct (en ligne ou sur site) s'adresse aux développeurs qui souhaitent intégrer Apache Kafka aux bases de données et applications existantes à des fins de traitement, d'analyse, etc.
A l'issue de cette formation, les participants seront capables de :
- Utiliser Kafka Connect pour ingérer de grandes quantités de données d'une base de données dans des sujets Kafka.
- Ingérer les données de logs générées par un serveur d'application dans les sujets Kafka.
- Mettre à disposition toutes les données collectées pour le traitement en flux.
- Exporter les données des sujets Kafka vers des systèmes secondaires pour le stockage et l'analyse.
Unified Batch and Stream Processing with Apache Beam
14 HeuresApache Beam est un modèle de programmation unifié et open source permettant de définir et d'exécuter des pipelines de traitement de données parallèles. Sa puissance réside dans sa capacité à exécuter des pipelines en batch et en streaming, l'exécution étant réalisée par l'un des back-ends de traitement distribué pris en charge par Beam : Apache Apex, Apache Flink, Apache Spark et Go ogle Cloud Dataflow. Beam Apache Beam est utile pour les tâches ETL (Extract, Transform, and Load) telles que le déplacement de données entre différents supports de stockage et sources de données, la transformation de données dans un format plus souhaitable, et le chargement de données sur un nouveau système.
Au cours de cette formation en direct (sur site ou à distance), les participants apprendront à mettre en œuvre les SDK Apache Beam dans une application Java ou Python qui définit un pipeline de traitement des données permettant de décomposer un ensemble de données volumineuses en morceaux plus petits pour un traitement indépendant et parallèle.
À la fin de cette formation, les participants seront capables de :
- Installer et configurer Apache Beam.
- Utiliser un modèle de programmation unique pour effectuer des traitements par lots et par flux à partir de leur application Java ou Python.
- Exécuter des pipelines dans plusieurs environnements.
Format du cours permettant d'évaluer les participants
- En partie cours magistral, en partie discussion, exercices et pratique intensive.
Remarque
- Ce cours sera disponible Scala dans le futur. Veuillez nous contacter pour convenir d'un rendez-vous.
Building Kafka Solutions with Confluent
14 HeuresCette formation en direct, animée par un instructeur (sur site ou à distance), est destinée aux ingénieurs souhaitant utiliser Confluent (une distribution de Kafka) pour créer et gérer une plate-forme de traitement de données en temps réel pour leurs applications.
À la fin de cette formation, les participants seront en mesure de:
- Installez et configurez Confluent Platform.
- Utilisez les outils et les services de gestion de Confluent pour exécuter Kafka plus facilement.
- Stocker et traiter les données de flux entrants.
- Optimiser et gérer les clusters Kafka.
- Flux de données sécurisés.
Format du cours permettant d'évaluer les participants
- Conférence interactive et discussion.
- Beaucoup d'exercices et de pratique.
- Mise en œuvre pratique dans un environnement de laboratoire réel.
Options de personnalisation du cours
- Ce cours est basé sur la version open source de Confluent: Confluent Open Source.
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
Apache Flink Fundamentals
28 HeuresCette formation en direct à France (en ligne ou sur site) présente les principes et les approches du traitement distribué des données en flux et par lots, et accompagne les participants dans la création d'une application de flux de données en temps réel dans Apache Flink.
A la fin de cette formation, les participants seront capables de :
- Mettre en place un environnement pour développer des applications d'analyse de données.
- Comprendre le fonctionnement de la bibliothèque de traitement de graphes de Apache Flink (Gelly).
- Mettre en place, exécuter et surveiller des applications de streaming de données basées sur Flink et tolérantes aux pannes.
- Gérer diverses charges de travail.
- Effectuer des analyses avancées.
- Mettre en place un cluster Flink à plusieurs nœuds.
- Mesurer et optimiser les performances.
- Intégrer Flink à différents systèmes Big Data.
- Comparer les capacités de Flink avec celles d'autres frameworks de traitement des big data.
Introduction to Graph Computing
28 HeuresAu cours de cette formation en direct à France, les participants découvriront les offres technologiques et les approches de mise en œuvre pour le traitement des données graphiques. L'objectif est d'identifier les objets du monde réel, leurs caractéristiques et leurs relations, puis de modéliser ces relations et de les traiter en tant que données à l'aide d'une approche Graph Computing (également connue sous le nom de Graph Analytics). Nous commençons par une vue d'ensemble et nous nous concentrons sur des outils spécifiques à travers une série d'études de cas, d'exercices pratiques et de déploiements en direct.
A la fin de cette formation, les participants seront capables de :
- Comprendre comment les données graphiques sont persistées et parcourues.
- Sélectionner le meilleur framework pour une tâche donnée (des bases de données de graphes aux frameworks de traitement par lots).
- Mettre en œuvre Hadoop, Spark, GraphX et Pregel pour effectuer des calculs de graphes sur de nombreuses machines en parallèle.
- Voir les problèmes de big data du monde réel en termes de graphes, de processus et de traversées.
Apache Kafka for Python Programmers
7 HeuresCette formation en direct avec instructeur dans France (en ligne ou sur site) est destinée aux ingénieurs de données, aux scientifiques de données et aux programmeurs qui souhaitent utiliser les fonctionnalités Apache Kafka dans les flux de données avec Python.
À la fin de cette formation, les participants seront en mesure d'utiliser Apache Kafka pour surveiller et gérer les conditions dans les flux de données continus en utilisant la programmation Python.
Stream Processing with Kafka Streams
7 HeuresKafka Streams est une bibliothèque côté client permettant de créer des applications et des microservices dont les données sont transmises depuis et vers un système de messagerie Kafka. Apache Kafka s’appuyait traditionnellement sur Apache Spark ou Apache Storm pour traiter les données entre les producteurs de messages et les consommateurs. En appelant l'API Kafka Streams depuis une application, les données peuvent être traitées directement dans Kafka, ce qui évite d'avoir à les envoyer à un cluster distinct.
Au cours de cette formation en direct animée par un instructeur, les participants apprendront comment intégrer Kafka Streams à un ensemble d’exemples d’applications Java qui transmettent des données depuis et vers Apache Kafka pour le traitement de flux.
À la fin de cette formation, les participants seront en mesure de:
- Comprendre les fonctionnalités et les avantages de Kafka Streams par rapport aux autres infrastructures de traitement de flux
- Traiter les données de flux directement dans un cluster Kafka
- Écrire une application ou un microservice Java ou Scala intégrant Kafka et Kafka Streams
- Écrivez un code concis qui transforme les sujets d’entrée de Kafka en sujets de sortie de Kafka
- Construire, empaqueter et déployer l'application
Public
- Développeurs
Format du cours
- Partie de conférence, partie de discussion, exercices et exercices intensifs
Remarques
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser
Confluent KSQL
7 HeuresCette formation en direct dans France (en ligne ou sur site) est destinée aux développeurs qui souhaitent mettre en œuvre le traitement de flux Apache Kafka sans écrire de code.
A l'issue de cette formation, les participants seront capables de :
- Installer et configurer Confluent KSQL.
- Mettre en place un pipeline de traitement de flux en utilisant uniquement des commandes SQL (pas de codage Java ou Python).
- Effectuer le filtrage des données, les transformations, les agrégations, les jointures, le fenêtrage et la sessionnalisation entièrement en SQL.
- Concevoir et déployer des requêtes interactives et continues pour l'ETL en continu et l'analyse en temps réel.
Apache NiFi for Administrators
21 HeuresAu cours de cette formation en direct, dirigée par un instructeur, à France (sur place ou à distance), les participants apprendront à déployer et à gérer Apache NiFi dans un environnement de laboratoire réel.
A la fin de cette formation, les participants seront capables de :
- Installer et configurer Apachi NiFi.
- Rechercher, transformer et gérer des données à partir de sources de données disparates et distribuées, y compris les bases de données et les lacs de données.
- Automatiser les flux de données.
- Permettre l'analyse en continu.
- Appliquer différentes approches pour l'ingestion de données.
- Transformer les données Big Data en informations commerciales.
Apache NiFi for Developers
7 HeuresAu cours de cette formation en direct et dirigée par un instructeur dans France, les participants apprendront les principes fondamentaux de la programmation par flux en développant un certain nombre d'extensions, de composants et de processeurs de démonstration à l'aide de Apache NiFi.
A la fin de cette formation, les participants seront capables de :
- Comprendre l'architecture de NiFi et les concepts de flux de données.
- Développer des extensions en utilisant NiFi et des APIs tierces.
- Développer leur propre processeur Apache Nifi.
- Ingérer et traiter des données en temps réel à partir de formats de fichiers et de sources de données disparates et peu communs.
Python and Spark for Big Data (PySpark)
21 HeuresAu cours de cette formation en direct avec instructeur à France, les participants apprendront à utiliser Python et Spark ensemble pour analyser les données volumineuses (big data) en travaillant sur des exercices pratiques.
A la fin de cette formation, les participants seront capables de :
- Apprendre à utiliser Spark avec Python pour analyser Big Data.
- Travailler sur des exercices qui imitent des cas réels.
- Utiliser différents outils et techniques pour l'analyse des big data en utilisant PySpark.
Spark Streaming with Python and Kafka
7 HeuresCette formation en direct avec instructeur dans France (en ligne ou sur site) est destinée aux ingénieurs de données, aux scientifiques de données et aux programmeurs qui souhaitent utiliser les fonctionnalités de Spark Streaming dans le traitement et l'analyse de données en temps réel.
À la fin de cette formation, les participants seront en mesure d'utiliser Spark Streaming pour traiter des flux de données en temps réel et les utiliser dans des bases de données, des systèmes de fichiers et des tableaux de bord en temps réel.
Apache Spark MLlib
35 HeuresMLlib est la bibliothèque d'apprentissage automatique (ML) de Spark. Son objectif est de rendre l'apprentissage pratique pratique évolutif et facile. Il comprend des algorithmes et des utilitaires d'apprentissage courants, notamment la classification, la régression, la mise en cluster, le filtrage collaboratif, la réduction de la dimensionnalité, ainsi que des primitives d'optimisation de niveau inférieur et des API de pipeline de niveau supérieur.
Il se divise en deux paquets:
spark.mllib contient l'API d'origine construite sur les RDD.
spark.ml fournit des API de niveau supérieur construites à partir de DataFrames pour la construction de pipelines ML.
Public
Ce cours s’adresse aux ingénieurs et aux développeurs qui souhaitent utiliser une bibliothèque de machines intégrée à Apache Spark