Formation Big Data & Database Systems Fundamentals
Le cours fait partie des compétences de Data Scientist (domaine: données et technologie).
Plan du cours
Concepts d'entreposage de données
- Qu'est-ce qu'un entrepôt de données ?
- Différence entre OLTP et Data Ware Housing
- Acquisition des données
- Extraction des données
- Transformation des données.
- Chargement des données
- Marques de données
- Data Mart dépendant ou indépendant
- Conception de la base de données
Concepts de test ETL :
- Introduction.
- Cycle de vie du développement logiciel.
- Méthodologies de test.
- Processus de déroulement des tests ETL.
- Responsabilités du test ETL au stade des données.
Principes fondamentaux du Big Data
- Big Data et son rôle dans le monde de l'entreprise
- Les phases de développement d'une stratégie Big Data au sein d'une entreprise.
- Expliquer le raisonnement sous-jacent à une approche holistique du Big Data.
- Composants nécessaires à une plateforme Big Data
- Solution de stockage des big data
- Limites des technologies traditionnelles
- Aperçu des types de bases de données
NoSQL Databases
Hadoop
Map Reduce
Apache Spark
Les formations ouvertes requièrent plus de 3 participants.
Formation Big Data & Database Systems Fundamentals - Booking
Formation Big Data & Database Systems Fundamentals - Enquiry
Big Data & Database Systems Fundamentals - Demande d'informations consulting
Demande d'informations consulting
Nos clients témoignent (5)
Beaucoup d'exemples pratiques, différentes façons d'aborder le même problème, et parfois des astuces pas si évidentes pour améliorer la solution actuelle.
Rafal - Nordea
Formation - Apache Spark MLlib
Traduction automatique
comment le formateur démontre ses connaissances dans le sujet qu'il enseigne
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Formation - Data Vault: Building a Scalable Data Warehouse
Traduction automatique
Pendant les exercices, James m'a expliqué chaque étape en détail là où j'étais bloqué. Je n'avais aucune expérience avec NIFI au départ. Il m'a expliqué le véritable objectif de NIFI, y compris des notions de base comme le code source ouvert. Il a couvert tous les concepts de Nifi, du niveau débutant au niveau développeur.
Firdous Hashim Ali - MOD A BLOCK
Formation - Apache NiFi for Administrators
Traduction automatique
Préparation et organisation du formateur, et qualité des matériaux fournis sur GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Formation - Impala for Business Intelligence
Traduction automatique
Que je l'aie eu dans un premier temps.
Peter Scales - CACI Ltd
Formation - Apache NiFi for Developers
Traduction automatique
Cours à venir
Cours Similaires
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 HeuresCe cours s'adresse aux développeurs et aux scientifiques des données qui souhaitent comprendre et mettre en œuvre l'IA dans leurs applications. Une attention particulière est accordée à l'analyse des données, à l'IA distribuée et au traitement du langage naturel.
Unified Batch and Stream Processing with Apache Beam
14 HeuresApache Beam est un modèle de programmation unifié et open source permettant de définir et d'exécuter des pipelines de traitement de données parallèles. Sa puissance réside dans sa capacité à exécuter des pipelines en batch et en streaming, l'exécution étant réalisée par l'un des back-ends de traitement distribué pris en charge par Beam : Apache Apex, Apache Flink, Apache Spark et Go ogle Cloud Dataflow. Beam Apache Beam est utile pour les tâches ETL (Extract, Transform, and Load) telles que le déplacement de données entre différents supports de stockage et sources de données, la transformation de données dans un format plus souhaitable, et le chargement de données sur un nouveau système.
Au cours de cette formation en direct (sur site ou à distance), les participants apprendront à mettre en œuvre les SDK Apache Beam dans une application Java ou Python qui définit un pipeline de traitement des données permettant de décomposer un ensemble de données volumineuses en morceaux plus petits pour un traitement indépendant et parallèle.
À la fin de cette formation, les participants seront capables de :
- Installer et configurer Apache Beam.
- Utiliser un modèle de programmation unique pour effectuer des traitements par lots et par flux à partir de leur application Java ou Python.
- Exécuter des pipelines dans plusieurs environnements.
Format du cours permettant d'évaluer les participants
- En partie cours magistral, en partie discussion, exercices et pratique intensive.
Remarque
- Ce cours sera disponible Scala dans le futur. Veuillez nous contacter pour convenir d'un rendez-vous.
NoSQL Database with Microsoft Azure Cosmos DB
14 HeuresCette formation en direct avec instructeur en France  ;(en ligne ou sur site) est destinée aux administrateurs de bases de données ou aux développeurs qui souhaitent utiliser Microsoft Azure Cosmos DB pour développer et gérer des applications hautement réactives et à faible latence.
A l'issue de cette formation, les participants seront capables de :
- Provisionner les ressources Cosmos DB nécessaires pour commencer à construire des bases de données et des applications.
- Mettre à niveau les performances et le stockage des applications en utilisant les API de Cosmos DB.
- Gérer les opérations des bases de données et réduire les coûts en optimisant les ressources de Cosmos DB.
Data Vault: Building a Scalable Data Warehouse
28 HeuresAu cours de cette formation en direct à France, les participants apprendront à construire un Data Vault.
À l'issue de cette formation, les participants seront en mesure de :
- Comprendre l'architecture et les concepts de conception derrière Data Vault 2.0, et son interaction avec Big Data, NoSQL et l'IA.
- Utiliser les techniques de mise en voûte des données pour permettre l'audit, le traçage et l'inspection des données historiques dans un entrepôt de données.
- Développer un processus ETL (Extract, Transform, Load) cohérent et reproductible.
- Construire et déployer des entrepôts hautement évolutifs et reproductibles.
Apache Flink Fundamentals
28 HeuresCette formation en direct à France (en ligne ou sur site) présente les principes et les approches du traitement distribué des données en flux et par lots, et accompagne les participants dans la création d'une application de flux de données en temps réel dans Apache Flink.
A la fin de cette formation, les participants seront capables de :
- Mettre en place un environnement pour développer des applications d'analyse de données.
- Comprendre le fonctionnement de la bibliothèque de traitement de graphes de Apache Flink (Gelly).
- Mettre en place, exécuter et surveiller des applications de streaming de données basées sur Flink et tolérantes aux pannes.
- Gérer diverses charges de travail.
- Effectuer des analyses avancées.
- Mettre en place un cluster Flink à plusieurs nœuds.
- Mesurer et optimiser les performances.
- Intégrer Flink à différents systèmes Big Data.
- Comparer les capacités de Flink avec celles d'autres frameworks de traitement des big data.
Introduction to Graph Computing
28 HeuresAu cours de cette formation en direct à France, les participants découvriront les offres technologiques et les approches de mise en œuvre pour le traitement des données graphiques. L'objectif est d'identifier les objets du monde réel, leurs caractéristiques et leurs relations, puis de modéliser ces relations et de les traiter en tant que données à l'aide d'une approche Graph Computing (également connue sous le nom de Graph Analytics). Nous commençons par une vue d'ensemble et nous nous concentrons sur des outils spécifiques à travers une série d'études de cas, d'exercices pratiques et de déploiements en direct.
A la fin de cette formation, les participants seront capables de :
- Comprendre comment les données graphiques sont persistées et parcourues.
- Sélectionner le meilleur framework pour une tâche donnée (des bases de données de graphes aux frameworks de traitement par lots).
- Mettre en œuvre Hadoop, Spark, GraphX et Pregel pour effectuer des calculs de graphes sur de nombreuses machines en parallèle.
- Voir les problèmes de big data du monde réel en termes de graphes, de processus et de traversées.
Hortonworks Data Platform (HDP) for Administrators
21 HeuresCette formation en direct à France (en ligne ou sur site) présente Hortonworks Data Platform (HDP) et accompagne les participants dans le déploiement de la solution Spark + Hadoop.
A l'issue de cette formation, les participants seront capables de :
- Utiliser Hortonworks pour exécuter de manière fiable Hadoop à grande échelle.
- Unifier les capacités de sécurité, de gouvernance et d'exploitation de Hadoop avec les flux de travail analytiques agiles de Spark.
- Utiliser Hortonworks pour étudier, valider, certifier et prendre en charge chacun des composants d'un projet Spark.
- Traiter différents types de données, notamment structurées, non structurées, en mouvement et au repos.
Data Analysis with Hive/HiveQL
7 HeuresCe cours explique comment utiliser le SQL Hive SQL (AKA: Hive HQL, SQL sur Hive , Hive QL) pour les personnes qui extraient des données à partir de Hive
Impala for Business Intelligence
21 HeuresCloudera Impala est un moteur de requête open source de traitement massivement parallèle (MPP) SQL pour les clusters Apache Hadoop.
Cloudera Impala permet aux utilisateurs d'émettre des requêtes à faible latence SQL sur des données stockées dans Hadoop Distributed File System et Apache Hbase sans avoir à déplacer ou à transformer les données.
Public
Ce cours s'adresse aux analystes et aux scientifiques des données qui effectuent des analyses sur des données stockées dans Hadoop via des outils Business Intelligence ou SQL.
À l'issue de cette formation, les participants seront en mesure de
- Extraire des informations significatives des clusters Hadoop avec Impala.
- Écrire des programmes spécifiques pour faciliter Business Intelligence dans Impala SQL Dialecte.
- Dépanner Impala.
Confluent KSQL
7 HeuresCette formation en direct dans France (en ligne ou sur site) est destinée aux développeurs qui souhaitent mettre en œuvre le traitement de flux Apache Kafka sans écrire de code.
A l'issue de cette formation, les participants seront capables de :
- Installer et configurer Confluent KSQL.
- Mettre en place un pipeline de traitement de flux en utilisant uniquement des commandes SQL (pas de codage Java ou Python).
- Effectuer le filtrage des données, les transformations, les agrégations, les jointures, le fenêtrage et la sessionnalisation entièrement en SQL.
- Concevoir et déployer des requêtes interactives et continues pour l'ETL en continu et l'analyse en temps réel.
Apache NiFi for Administrators
21 HeuresAu cours de cette formation en direct, dirigée par un instructeur, à France (sur place ou à distance), les participants apprendront à déployer et à gérer Apache NiFi dans un environnement de laboratoire réel.
A la fin de cette formation, les participants seront capables de :
- Installer et configurer Apachi NiFi.
- Rechercher, transformer et gérer des données à partir de sources de données disparates et distribuées, y compris les bases de données et les lacs de données.
- Automatiser les flux de données.
- Permettre l'analyse en continu.
- Appliquer différentes approches pour l'ingestion de données.
- Transformer les données Big Data en informations commerciales.
Apache NiFi for Developers
7 HeuresAu cours de cette formation en direct et dirigée par un instructeur dans France, les participants apprendront les principes fondamentaux de la programmation par flux en développant un certain nombre d'extensions, de composants et de processeurs de démonstration à l'aide de Apache NiFi.
A la fin de cette formation, les participants seront capables de :
- Comprendre l'architecture de NiFi et les concepts de flux de données.
- Développer des extensions en utilisant NiFi et des APIs tierces.
- Développer leur propre processeur Apache Nifi.
- Ingérer et traiter des données en temps réel à partir de formats de fichiers et de sources de données disparates et peu communs.
Python and Spark for Big Data (PySpark)
21 HeuresAu cours de cette formation en direct avec instructeur à France, les participants apprendront à utiliser Python et Spark ensemble pour analyser les données volumineuses (big data) en travaillant sur des exercices pratiques.
A la fin de cette formation, les participants seront capables de :
- Apprendre à utiliser Spark avec Python pour analyser Big Data.
- Travailler sur des exercices qui imitent des cas réels.
- Utiliser différents outils et techniques pour l'analyse des big data en utilisant PySpark.
Spark Streaming with Python and Kafka
7 HeuresCette formation en direct avec instructeur dans France (en ligne ou sur site) est destinée aux ingénieurs de données, aux scientifiques de données et aux programmeurs qui souhaitent utiliser les fonctionnalités de Spark Streaming dans le traitement et l'analyse de données en temps réel.
À la fin de cette formation, les participants seront en mesure d'utiliser Spark Streaming pour traiter des flux de données en temps réel et les utiliser dans des bases de données, des systèmes de fichiers et des tableaux de bord en temps réel.
Apache Spark MLlib
35 HeuresMLlib est la bibliothèque d'apprentissage automatique (ML) de Spark. Son objectif est de rendre l'apprentissage pratique pratique évolutif et facile. Il comprend des algorithmes et des utilitaires d'apprentissage courants, notamment la classification, la régression, la mise en cluster, le filtrage collaboratif, la réduction de la dimensionnalité, ainsi que des primitives d'optimisation de niveau inférieur et des API de pipeline de niveau supérieur.
Il se divise en deux paquets:
spark.mllib contient l'API d'origine construite sur les RDD.
spark.ml fournit des API de niveau supérieur construites à partir de DataFrames pour la construction de pipelines ML.
Public
Ce cours s’adresse aux ingénieurs et aux développeurs qui souhaitent utiliser une bibliothèque de machines intégrée à Apache Spark