Les cours de formation en ligne ou sur site, dirigés par un instructeur, commencent par une introduction aux concepts élémentaires du Big Data, puis progressent vers les langages de programmation et les méthodologies utilisées pour effectuer l'analyse des données. Les outils et l'infrastructure permettant le stockage des Big Data, le traitement distribué et l'évolutivité sont discutés, comparés et mis en œuvre dans le cadre de sessions de démonstrations pratiques.
La formation Big Data est disponible en tant que "formation en ligne en direct" ou "formation sur site en direct". La formation en ligne (également appelée "formation à distance") est réalisée au moyen d'un bureau interactif, à distance. La formation en direct sur site peut être dispensée localement dans les locaux du client Nantes ou dans les centres de formation de NobleProg Nantes.
NobleProg -- Votre fournisseur local de formation
Nantes, Zenith
NobleProg Nantes, 4 rue Edith Piaf, Saint-Herblain, france, 44821
Sur la zone du Parc d'Ar Mor, proche du Zénith.
Voiture : depuis le périphérique, sortie Porte de Chézine > Boulevard du Zenith > Esplanade Georges Brassens (restaurants) > Rue Edith Piaf à votre droite. Depuis la N444 (Nantes > Lorient), sortie #1 > boulevard Marcel Paul > Rue Edith Piaf à votre droite.
Parking Zénith P1 (gratuit). Une fois garé, tournez le dos au Zénith : l’immeuble Euptouyou est un des trois bâtiments reconnaissables à leur bardage en zinc, celui de gauche (Immeuble C).
Vélo : parking couvert gratuit.
Transports en commun :
Tramway R1, arrêt Schoelcher + 10 mn à pied à travers le centre commercial Atlantis
Tramway R1, arrêt François Mitterrand + bus 50, arrêt Saulzaie ou bus 71, arrêt Zénith
Tramway R3, arrêt Marcel Paul + bus 50, arrêt Saulzaie
Chronobus C6, arrêt Hermeland + bus 71, arrêt Zénith
Bus : lignes 50 (arrêt Saulzaie) ou 71 (arrêt Zénith)
Les participants qui suivront cette formation en direct et dirigée par un instructeur dans Nantes acquerront une compréhension pratique et réelle de Big Data et des technologies, méthodologies et outils qui y sont associés.
Les participants auront l'occasion de mettre en pratique ces connaissances par le biais d'exercices pratiques. L'interaction du groupe et le retour d'information de l'instructeur constituent une composante importante du cours.
Le cours commence par une introduction aux concepts élémentaires de Big Data, puis progresse vers les langages de programmation et les méthodologies utilisées pour réaliser Data Analysis. Enfin, nous discutons des outils et de l'infrastructure qui permettent le stockage Big Data, le traitement distribué et la Scalabilité.
Cette formation en direct avec instructeur à Nantes (en ligne ou sur site) est destinée aux professionnels des données de niveau avancé qui souhaitent optimiser les flux de traitement des données, assurer l'intégrité des données et mettre en œuvre des solutions de data lakehouse robustes qui peuvent gérer les complexités des applications modernes de big data.
A l'issue de cette formation, les participants seront en mesure de :
Acquérir une compréhension approfondie de l'architecture d'Iceberg, y compris la gestion des métadonnées et la disposition des fichiers.
Configurer Iceberg pour des performances optimales dans divers environnements et l'intégrer à plusieurs moteurs de traitement de données.
Gérer des tables Iceberg à grande échelle, effectuer des changements de schéma complexes et gérer l'évolution des partitions.
Maîtriser les techniques permettant d'optimiser les performances des requêtes et l'efficacité de l'analyse des données pour les grands ensembles de données.
Mettre en œuvre des mécanismes pour assurer la cohérence des données, gérer les garanties transactionnelles et gérer les défaillances dans les environnements distribués.
Cette formation en direct avec instructeur à Nantes (en ligne ou sur site) s'adresse aux professionnels des données de niveau débutant qui souhaitent acquérir les connaissances et les compétences nécessaires pour utiliser efficacement Apache Iceberg afin de gérer des ensembles de données à grande échelle, d'assurer l'intégrité des données et d'optimiser les flux de travail pour le traitement des données.
A l'issue de cette formation, les participants seront capables de :
Acquérir une compréhension approfondie de l'architecture, des fonctionnalités et des avantages d'Apache Iceberg.
Apprendre les formats de table, le partitionnement, l'évolution des schémas et les capacités de déplacement dans le temps.
Installer et configurer Apache Iceberg dans différents environnements.
Créer, gérer et manipuler des tables Iceberg.
Comprendre le processus de migration des données d'autres formats de table vers Iceberg.
Cette formation en direct avec instructeur à Nantes (en ligne ou sur site) s'adresse aux professionnels de l'informatique de niveau intermédiaire qui souhaitent améliorer leurs compétences en matière d'architecture de données, de gouvernance, de cloud computing et de technologies big data afin de gérer et d'analyser efficacement les grands ensembles de données pour la migration des données au sein de leur organisation.
À l'issue de cette formation, les participants seront en mesure de :
Comprendre les concepts fondamentaux et les composants des différentes architectures de données.
Comprendre les principes de la gouvernance des données et leur importance dans les environnements réglementaires.
Mettre en œuvre et gérer des cadres de gouvernance des données tels que Dama et Togaf.
Exploiter les plateformes en nuage pour un stockage, un traitement et une gestion efficaces des données.
Cette formation en direct avec instructeur à Nantes (en ligne ou sur site) est destinée aux ingénieurs de données de niveau intermédiaire qui souhaitent apprendre à utiliser Azure Data Lake Storage Gen2 pour des solutions d'analyse de données efficaces.
À l'issue de cette formation, les participants seront en mesure de :
Comprendre l'architecture et les principales fonctionnalités de Azure Data Lake Storage Gen2.
Optimiser le stockage et l'accès aux données en termes de coûts et de performances.
Intégrer Azure Data Lake Storage Gen2 avec d'autres services Azure pour l'analyse et le traitement des données.
Développer des solutions à l'aide de l'API Azure Data Lake Storage Gen2.
Dépanner les problèmes courants et optimiser les stratégies de stockage.
Cette formation en direct avec instructeur à Nantes (en ligne ou sur site) est destinée aux professionnels de l'informatique de niveau intermédiaire qui souhaitent avoir une compréhension complète d'IBM DataStage à la fois du point de vue de l'administration et du développement, leur permettant de gérer et d'utiliser cet outil de manière efficace dans leurs lieux de travail respectifs.
A l'issue de cette formation, les participants seront capables de :
Comprendre les concepts fondamentaux de DataStage.
Apprendre à installer, configurer et gérer efficacement les environnements DataStage.
Se connecter à diverses sources de données et extraire efficacement des données à partir de bases de données, de fichiers plats et de sources externes.
Mettre en œuvre des techniques efficaces de chargement de données.
Cette formation en direct, animée par un formateur (en ligne ou sur site), s'adresse aux professionnels intermédiaires du grand volume de données qui souhaitent utiliser Apache Kylin pour construire des entrepôts de données en temps réel et effectuer une analyse multidimensionnelle sur des jeux de données à grande échelle.À la fin de cette formation, les participants seront capables de :
Configurer et paramétrer Apache Kylin avec des sources de données de flux en temps réel.
Dessiner et construire des cubes OLAP pour les données batch et de flux.
Effectuer des requêtes complexes avec une latence inférieure à une seconde en utilisant l'interface SQL de Kylin.
Intégrer Kylin avec des outils BI pour la visualisation interactive des données.
Optimiser les performances et gérer efficacement les ressources dans Kylin.
Les participants qui suivent cette formation en direct et dirigée par un instructeur en <loc> ; acquerront une compréhension pratique et réelle de Big Data et des technologies, méthodologies et outils qui y sont associés.
Les participants auront l'occasion de mettre en pratique ces connaissances par le biais d'exercices pratiques. L'interaction au sein du groupe et le retour d'information de l'instructeur constituent une composante importante du cours.
Le cours commence par une introduction aux concepts élémentaires du Big Data, puis progresse vers les langages de programmation et les méthodologies utilisées pour effectuer l'analyse des données. Enfin, nous discutons des outils et de l'infrastructure qui permettent le stockage des Big Data, le traitement distribué et la Scalabilité.
Au cours de cette formation en direct avec instructeur à Nantes, les participants apprendront à utiliser Python et Spark ensemble pour analyser les données volumineuses (big data) en travaillant sur des exercices pratiques.
A la fin de cette formation, les participants seront capables de :
Apprendre à utiliser Spark avec Python pour analyser Big Data.
Travailler sur des exercices qui imitent des cas réels.
Utiliser différents outils et techniques pour l'analyse des big data en utilisant PySpark.
Ce cours explique comment utiliser le SQL Hive SQL (AKA: Hive HQL, SQL sur Hive , Hive QL) pour les personnes qui extraient des données à partir de Hive
This instructor-led, live training in Nantes (online or onsite) is aimed at intermediate-level database administrators, developers, and analysts who wish to master advanced SQL functionalities for complex data operations and database management.
By the end of this training, participants will be able to:
Perform advanced querying techniques using unions, subqueries, and complex joins.
Add, update, and delete data, tables, views, and indexes with precision.
Ensure data integrity through transactions and manipulate database structures.
Create and manage databases efficiently for robust data storage and retrieval.
Dremio est une plate-forme de données open-source qui accélère la recherche de différents types de sources de données. Dremio intégré avec des bases de données relatives, Apache Hadoop, MongoDB, Amazon S3, ElasticSearch, et d'autres sources de données. Il soutient SQL et fournit un UI Web pour les requêtes de construction.
Dans cette formation guidée par l'instructeur, les participants apprendront comment installer, configurer et utiliser Dremio en tant que couche unifiante pour les outils d'analyse des données et les repositaires de données de base.
À la fin de cette formation, les participants seront en mesure de :
Installer et configurer Dremio
Exécuter des requêtes contre plusieurs sources de données, indépendamment de l’emplacement, de la taille ou de la structure
Intégrer Dremio avec BI et sources de données telles que Tableau et Elasticsearch
Audience
Les scientifiques de données
Business Les analystes
Ingénieurs de données
Format du cours permettant d'évaluer les participants
Lecture partielle, discussion partielle, exercices et pratiques lourdes
Notes
Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.
Cette formation en direct (en ligne ou sur site) s'adresse aux professionnels des bases de données de niveau intermédiaire qui souhaitent améliorer leurs compétences en matière de développement et d'administration des bases de données Oracle SQL.
A l'issue de cette formation, les participants seront capables de :
Construire et optimiser des requêtes SQL complexes.
Gérer efficacement les bases de données à l'aide d'outils Oracle SQL.
Appliquer les meilleures pratiques dans le développement et la maintenance des bases de données.
Administrer l'accès des utilisateurs et la sécurité des bases de données dans un environnement Oracle.
Apache Accumulo est un magasin de clés/valeurs trié et distribué qui fournit un stockage et une récupération de données robustes et évolutifs. Il est basé sur la conception de Google's BigTable et est alimenté par Apache Hadoop, Apache Zookeeper, et Apache Thrift.
Ce cours en direct avec instructeur couvre les principes de fonctionnement d'Accumulo et accompagne les participants dans le développement d'un exemple d'application sur Apache Accumulo.
Format du cours
En partie exposé, en partie discussion, développement et implémentation pratiques, tests occasionnels pour évaluer la compréhension.
Cette formation en Nantes (en ligne ou sur site) est destinée aux développeurs d'applications et aux ingénieurs qui souhaitent maîtriser des utilisations plus sophistiquées de la base de données Teradata.
A l'issue de cette formation, les participants seront capables de :
Ce cours s'adresse aux développeurs et aux scientifiques des données qui souhaitent comprendre et mettre en œuvre l'IA dans leurs applications. Une attention particulière est accordée à l'analyse des données, à l'IA distribuée et au traitement du langage naturel.
Amazon Redshift est un service d'entrepôt de données à l'échelle du pétaoctet basé sur le cloud dans AWS.
Dans cette formation en direct dirigée par un instructeur, les participants apprendront les principes fondamentaux de Amazon Redshift.
À la fin de cette formation, les participants seront capables de :
Installer et configurer Amazon Redshift
Charger, configurer, déployer, interroger et visualiser les données avec Amazon Redshift.
Audience
Développeurs
Professionnels de l'informatique
Format du cours permettant d'évaluer les participants
En partie cours magistral, en partie discussion, exercices et pratique intensive.
Remarque
Pour demander une formation personnalisée pour ce cours, veuillez nous contacter.
Les progrès technologiques et la quantité croissante d'informations transforment la manière dont les activités sont menées dans de nombreux secteurs, y compris celui de l'administration. [Les taux de production de données et d'archivage numérique des administrations sont en hausse en raison de la croissance rapide des appareils et applications mobiles, des capteurs et appareils intelligents, des solutions d'informatique en nuage et des portails destinés aux citoyens. À mesure que l'information numérique se développe et devient plus complexe, la gestion, le traitement, le stockage, la sécurité et l'élimination de l'information deviennent également plus complexes. De nouveaux outils de capture, de recherche, de découverte et d'analyse aident les organisations à tirer parti de leurs données non structurées. Le marché gouvernemental est à un point d'inflexion, réalisant que l'information est un actif stratégique et que le gouvernement doit protéger, exploiter et analyser les informations structurées et non structurées pour mieux servir et répondre aux exigences de la mission. Alors que les dirigeants gouvernementaux s'efforcent de faire évoluer les organisations axées sur les données afin d'accomplir leur mission avec succès, ils préparent le terrain pour corréler les dépendances entre les événements, les personnes, les processus et les informations.
Les solutions gouvernementales à haute valeur ajoutée seront créées à partir d'un mélange des technologies les plus perturbatrices :
Appareils et applications mobiles
Services en nuage
Technologies et réseaux sociaux d'entreprise
Big Data et l'analytique
IDC prévoit que d'ici 2020, le secteur des technologies de l'information atteindra 5 000 milliards de dollars, soit environ 1 700 milliards de dollars de plus qu'aujourd'hui, et que 80 % de la croissance du secteur sera tirée par ces technologies de la troisième plate-forme. À long terme, ces technologies seront des outils essentiels pour gérer la complexité de l'information numérique croissante. La technologie Big Data est l'une des solutions intelligentes de l'industrie et permet au gouvernement de prendre de meilleures décisions en agissant sur la base de modèles révélés par l'analyse de grands volumes de données - liées et non liées, structurées et non structurées.
Pour donner un sens à ces volumes de données, il faut des outils et des technologies de pointe capables d'analyser et d'extraire des connaissances utiles à partir de flux d'informations vastes et diversifiés", ont écrit Tom Kalil et Fen Zhao, du Bureau de la politique scientifique et technologique de la Maison Blanche, dans un article publié sur le blog du Bureau de la politique scientifique et technologique.
La Maison Blanche a fait un pas en avant pour aider les agences à trouver ces technologies en créant l'initiative nationale de recherche et de développement Big Data en 2012. Cette initiative prévoyait plus de 200 millions de dollars pour tirer le meilleur parti de l'explosion du Big Data et des outils nécessaires pour l'analyser.
Les défis que pose le Big Data sont presque aussi redoutables que ses promesses sont encourageantes. Le stockage efficace des données est l'un de ces défis. Comme toujours, les budgets sont serrés, les agences doivent donc minimiser le prix du stockage par mégaoctet et garder les données facilement accessibles pour que les utilisateurs puissent les obtenir quand ils le veulent et comme ils le veulent. La sauvegarde de quantités massives de données accentue le défi.
L'analyse efficace des données est un autre défi majeur. De nombreuses agences utilisent des outils commerciaux qui leur permettent de passer au crible les montagnes de données, en repérant les tendances qui peuvent les aider à fonctionner plus efficacement. (Une étude récente de MeriTalk a révélé que les responsables informatiques fédéraux pensent que Big Data pourrait aider les agences à économiser plus de 500 milliards de dollars tout en remplissant les objectifs de leur mission).
Les outils Big Data développés sur mesure permettent également aux agences de répondre à la nécessité d'analyser leurs données. Par exemple, le Computational Data Analytics Group du Oak Ridge National Laboratory a mis son système d'analyse de données Piranha à la disposition d'autres agences. Ce système a aidé des chercheurs en médecine à trouver un lien permettant d'alerter les médecins en cas d'anévrisme aortique avant qu'il ne se produise. Il est également utilisé pour des tâches plus banales, telles que l'examen de CV pour mettre en relation des candidats à l'emploi et des responsables du recrutement.
Apache Beam est un modèle de programmation unifié et open source permettant de définir et d'exécuter des pipelines de traitement de données parallèles. Sa puissance réside dans sa capacité à exécuter des pipelines en batch et en streaming, l'exécution étant réalisée par l'un des back-ends de traitement distribué pris en charge par Beam : Apache Apex, Apache Flink, Apache Spark et Go ogle Cloud Dataflow. Beam Apache Beam est utile pour les tâches ETL (Extract, Transform, and Load) telles que le déplacement de données entre différents supports de stockage et sources de données, la transformation de données dans un format plus souhaitable, et le chargement de données sur un nouveau système.
Au cours de cette formation en direct (sur site ou à distance), les participants apprendront à mettre en œuvre les SDK Apache Beam dans une application Java ou Python qui définit un pipeline de traitement des données permettant de décomposer un ensemble de données volumineuses en morceaux plus petits pour un traitement indépendant et parallèle.
À la fin de cette formation, les participants seront capables de :
Installer et configurer Apache Beam.
Utiliser un modèle de programmation unique pour effectuer des traitements par lots et par flux à partir de leur application Java ou Python.
Exécuter des pipelines dans plusieurs environnements.
Format du cours permettant d'évaluer les participants
En partie cours magistral, en partie discussion, exercices et pratique intensive.
Remarque
Ce cours sera disponible Scala dans le futur. Veuillez nous contacter pour convenir d'un rendez-vous.
Cette session de formation en classe explorera Big Data. Les délégués disposeront d'exemples informatiques et d'exercices d'études de cas à entreprendre avec des outils Big Data pertinents.
Jour 1 - fournit un aperçu de haut niveau des domaines essentiels du Big Data . Le module est divisé en une série de sections, chacune étant accompagnée d'un exercice pratique.
Jour 2 - explore une gamme de sujets qui associent des pratiques et des outils d'analyse aux environnements Big Data . Il n'entre pas dans les détails de mise en œuvre ou de programmation, mais conserve la couverture à un niveau conceptuel, en se concentrant sur des sujets permettant aux participants de développer une compréhension complète des fonctions d'analyse communes offertes par Big Data solutions Big Data .
Jour 3 - donne un aperçu des sujets fondamentaux et essentiels liés à l’architecture de la plateforme de la solution Big Data . Il couvre Big Data mécanismes Big Data requis pour le développement d'une plate-forme de solution Big Data et les options architecturales pour l'assemblage d'une plate-forme de traitement de données. Des scénarios courants sont également présentés pour fournir une compréhension de base de la manière dont une plate-forme de solution Big Data est généralement utilisée.
Jour 4: poursuit le troisième jour en explorant des sujets avancés relatifs à l'architecture de la plateforme de la solution Big Data . En particulier, différentes couches architecturales constituant la plate-forme de solution Big Data sont introduites et discutées, notamment les sources de données, l'entrée de données, le stockage de données, le traitement de données et la sécurité.
Jour 5 - couvre un certain nombre d’exercices et de problèmes conçus pour tester la capacité des délégués à appliquer leurs connaissances des sujets traités les jours 3 et 4.
Au cours de cette formation en direct à Nantes, les participants apprendront l'état d'esprit avec lequel il faut aborder les technologies Big Data, évaluer leur impact sur les processus et politiques existants et mettre en œuvre ces technologies dans le but d'identifier les activités criminelles et de prévenir la criminalité. Des études de cas d'organismes d'application de la loi du monde entier seront examinées afin de mieux comprendre leurs approches, leurs défis et leurs résultats en matière d'adoption.À l'issue de cette formation, les participants seront en mesure de :
Combiner la technologie Big Data avec les processus traditionnels de collecte de données pour reconstituer une histoire au cours d'une enquête.
Mettre en œuvre des solutions industrielles de stockage et de traitement des big data pour l'analyse des données.
Préparer une proposition pour l'adoption des outils et des processus les plus adéquats pour permettre une approche axée sur les données dans les enquêtes criminelles.
Big Data désigne des solutions destinées au stockage et au traitement de grands ensembles de données. Développé par Go Ogle au départ, ces Big Data volumes de Big Data des solutions ont évolué et inspiré d' autres projets similaires, dont beaucoup sont disponibles en open source. R est un langage de programmation populaire dans le secteur financier.
Lorsque les technologies de stockage traditionnelles ne gèrent pas la quantité de données que vous avez besoin de stocker, il existe des centaines d’alternatives. Ce cours essaie de montrer aux participants quelles sont les alternatives pour stocker et analyser le Big Data et quels sont leurs avantages et leurs inconvénients.
Ce cours est principalement axé sur la discussion et la présentation de solutions, bien que des exercices pratiques soient disponibles sur demande.
Cette formation en direct, animée par un instructeur (sur site ou à distance), est destinée aux ingénieurs souhaitant utiliser Confluent (une distribution de Kafka) pour créer et gérer une plate-forme de traitement de données en temps réel pour leurs applications.
À la fin de cette formation, les participants seront en mesure de:
Installez et configurez Confluent Platform.
Utilisez les outils et les services de gestion de Confluent pour exécuter Kafka plus facilement.
Stocker et traiter les données de flux entrants.
Optimiser et gérer les clusters Kafka.
Flux de données sécurisés.
Format du cours permettant d'évaluer les participants
Conférence interactive et discussion.
Beaucoup d'exercices et de pratique.
Mise en œuvre pratique dans un environnement de laboratoire réel.
Options de personnalisation du cours
Ce cours est basé sur la version open source de Confluent: Confluent Open Source.
Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
Public
Si vous essayez de comprendre les données auxquelles vous avez accès ou souhaitez analyser des données non structurées disponibles sur le réseau (comme Twitter, Linked in, etc.), ce cours est pour vous.
Il s’adresse principalement aux décideurs et aux personnes qui doivent choisir les données qui méritent d’être collectées et celles qui méritent d’être analysées.
Cela ne vise pas les personnes qui configurent la solution, ces personnes bénéficieront d'une vue d'ensemble.
Mode de livraison
Pendant le cours, des exemples concrets de technologies principalement open source seront présentés aux délégués.
De courtes conférences seront suivies de présentations et d'exercices simples des participants.
Contenu et logiciel utilisés
Tous les logiciels utilisés sont mis à jour à chaque exécution du cours, nous vérifions donc les dernières versions possibles.
Il couvre le processus d'obtention, de formatage, de traitement et d'analyse des données, afin d'expliquer comment automatiser le processus de prise de décision avec l'apprentissage automatique.
Au cours de cette formation en direct à Nantes, les participants apprendront à construire un Data Vault.
À l'issue de cette formation, les participants seront en mesure de :
Comprendre l'architecture et les concepts de conception derrière Data Vault 2.0, et son interaction avec Big Data, NoSQL et l'IA.
Utiliser les techniques de mise en voûte des données pour permettre l'audit, le traçage et l'inspection des données historiques dans un entrepôt de données.
Développer un processus ETL (Extract, Transform, Load) cohérent et reproductible.
Construire et déployer des entrepôts hautement évolutifs et reproductibles.
Cette formation en direct dans Nantes (en ligne ou sur site) est destinée aux architectes, développeurs et administrateurs qui souhaitent utiliser Denodo Platform pour optimiser et accélérer la gestion des données grâce à la virtualisation des données.
A l'issue de cette formation, les participants seront capables de :
Installer et configurer Denodo Platform.
Comprendre les fonctionnalités et l'architecture de Denodo Platform.
Comprendre les concepts clés, les avantages et les cas d'utilisation de la virtualisation des données.
Apprendre à configurer et à gérer le serveur de la Denodo Platform.
Mettre en œuvre la sécurité des données, l'accès des utilisateurs et l'authentification des services.
Appliquer les outils et les techniques de surveillance des opérations et d'optimisation des performances.
Apache Druid est un magasin de données distribué open-source, orienté colonne, écrit en Java . Il a été conçu pour ingérer rapidement d’énormes quantités de données d’événement et exécuter des requêtes OLAP à faible temps de latence sur ces données. Druid est couramment utilisé dans les applications de business intelligence pour analyser de gros volumes de données historiques et en temps réel. Il est également bien adapté pour alimenter des tableaux de bord analytiques interactifs rapides pour les utilisateurs finaux. Druid est utilisé par des sociétés telles que Alibaba, Airbnb, Cisco , eBay, Netflix, Paypal et Yahoo.
Dans ce cours en direct dirigé par un instructeur, nous explorons certaines des limites des solutions d'entrepôt de données et expliquons comment Druid peut compléter ces technologies pour former une pile d'analyses en continu flexible et évolutive. Nous parcourons de nombreux exemples, en offrant aux participants la possibilité de mettre en œuvre et de tester des solutions basées sur Druid dans un environnement de laboratoire.
Format du cours
Partie de conférence, partie de discussion, travaux pratiques intensifs, tests occasionnels pour évaluer la compréhension
Les données volumineuses sont des ensembles de données si volumineux et complexes qu'un logiciel de traitement de données traditionnel ne permet pas de les traiter. Les défis du Big Data incluent la capture, le stockage, l'analyse, la recherche, le partage, le transfert, la visualisation, l'interrogation, la mise à jour et la confidentialité des informations.
Cette formation en direct à Nantes (en ligne ou sur site) présente les principes et les approches du traitement distribué des données en flux et par lots, et accompagne les participants dans la création d'une application de flux de données en temps réel dans Apache Flink.
A la fin de cette formation, les participants seront capables de :
Mettre en place un environnement pour développer des applications d'analyse de données.
Comprendre le fonctionnement de la bibliothèque de traitement de graphes de Apache Flink (Gelly).
Mettre en place, exécuter et surveiller des applications de streaming de données basées sur Flink et tolérantes aux pannes.
Gérer diverses charges de travail.
Effectuer des analyses avancées.
Mettre en place un cluster Flink à plusieurs nœuds.
Mesurer et optimiser les performances.
Intégrer Flink à différents systèmes Big Data.
Comparer les capacités de Flink avec celles d'autres frameworks de traitement des big data.
Au cours de cette formation en direct à Nantes, les participants découvriront les offres technologiques et les approches de mise en œuvre pour le traitement des données graphiques. L'objectif est d'identifier les objets du monde réel, leurs caractéristiques et leurs relations, puis de modéliser ces relations et de les traiter en tant que données à l'aide d'une approche Graph Computing (également connue sous le nom de Graph Analytics). Nous commençons par une vue d'ensemble et nous nous concentrons sur des outils spécifiques à travers une série d'études de cas, d'exercices pratiques et de déploiements en direct.
A la fin de cette formation, les participants seront capables de :
Comprendre comment les données graphiques sont persistées et parcourues.
Sélectionner le meilleur framework pour une tâche donnée (des bases de données de graphes aux frameworks de traitement par lots).
Mettre en œuvre Hadoop, Spark, GraphX et Pregel pour effectuer des calculs de graphes sur de nombreuses machines en parallèle.
Voir les problèmes de big data du monde réel en termes de graphes, de processus et de traversées.
Cette formation en direct (en ligne ou sur site) s'adresse aux administrateurs qui souhaitent mettre en place Greenplum Database des solutions de veille stratégique et d'entreposage de données.
A l'issue de cette formation, les participants seront capables de :
Répondre aux besoins de traitement avec Greenplum.
Exécuter des opérations ETL pour le traitement des données.
Exploiter les infrastructures existantes de traitement des requêtes.
Cette formation en direct à Nantes (en ligne ou sur site) présente Hortonworks Data Platform (HDP) et accompagne les participants dans le déploiement de la solution Spark + Hadoop.
A l'issue de cette formation, les participants seront capables de :
Utiliser Hortonworks pour exécuter de manière fiable Hadoop à grande échelle.
Unifier les capacités de sécurité, de gouvernance et d'exploitation de Hadoop avec les flux de travail analytiques agiles de Spark.
Utiliser Hortonworks pour étudier, valider, certifier et prendre en charge chacun des composants d'un projet Spark.
Traiter différents types de données, notamment structurées, non structurées, en mouvement et au repos.
Cloudera Impala est un moteur de requête open source de traitement massivement parallèle (MPP) SQL pour les clusters Apache Hadoop.
Cloudera Impala permet aux utilisateurs d'émettre des requêtes à faible latence SQL sur des données stockées dans Hadoop Distributed File System et Apache Hbase sans avoir à déplacer ou à transformer les données.
Public
Ce cours s'adresse aux analystes et aux scientifiques des données qui effectuent des analyses sur des données stockées dans Hadoop via des outils Business Intelligence ou SQL.
À l'issue de cette formation, les participants seront en mesure de
Extraire des informations significatives des clusters Hadoop avec Impala.
Écrire des programmes spécifiques pour faciliter Business Intelligence dans Impala SQL Dialecte.
Dans cette formation dirigée par un instructeur en <loc> ; (sur site ou à distance), les participants apprendront comment configurer et intégrer différents Stream Processing frameworks avec des systèmes de stockage de big data existants et des applications logicielles et microservices connexes.
A l'issue de cette formation, les participants seront capables de :
Installer et configurer différents Stream Processing frameworks, tels que Spark Streaming et Kafka Streaming.
Comprendre et sélectionner le framework le plus approprié pour le travail à effectuer.
Traiter des données en continu, de manière concurrente et enregistrement par enregistrement.
Intégrer les solutions Stream Processing aux bases de données existantes, aux entrepôts de données, aux lacs de données, etc.
Intégrer la bibliothèque de traitement de flux la plus appropriée avec les applications d'entreprise et les microservices.
Cette formation en direct avec instructeur dans Nantes (en ligne ou sur site) est destinée aux ingénieurs de données, aux scientifiques de données et aux programmeurs qui souhaitent utiliser les fonctionnalités Apache Kafka dans les flux de données avec Python.
À la fin de cette formation, les participants seront en mesure d'utiliser Apache Kafka pour surveiller et gérer les conditions dans les flux de données continus en utilisant la programmation Python.
Kafka Streams est une bibliothèque côté client permettant de créer des applications et des microservices dont les données sont transmises depuis et vers un système de messagerie Kafka. Apache Kafka s’appuyait traditionnellement sur Apache Spark ou Apache Storm pour traiter les données entre les producteurs de messages et les consommateurs. En appelant l'API Kafka Streams depuis une application, les données peuvent être traitées directement dans Kafka, ce qui évite d'avoir à les envoyer à un cluster distinct.
Au cours de cette formation en direct animée par un instructeur, les participants apprendront comment intégrer Kafka Streams à un ensemble d’exemples d’applications Java qui transmettent des données depuis et vers Apache Kafka pour le traitement de flux.
À la fin de cette formation, les participants seront en mesure de:
Comprendre les fonctionnalités et les avantages de Kafka Streams par rapport aux autres infrastructures de traitement de flux
Traiter les données de flux directement dans un cluster Kafka
Écrire une application ou un microservice Java ou Scala intégrant Kafka et Kafka Streams
Écrivez un code concis qui transforme les sujets d’entrée de Kafka en sujets de sortie de Kafka
Construire, empaqueter et déployer l'application
Public
Développeurs
Format du cours permettant d'évaluer les participants
Partie de conférence, partie de discussion, exercices et exercices intensifs
Remarques
Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser
Cette formation en direct dans Nantes (en ligne ou sur site) est destinée aux développeurs qui souhaitent mettre en œuvre le traitement de flux Apache Kafka sans écrire de code.
A l'issue de cette formation, les participants seront capables de :
Installer et configurer Confluent KSQL.
Mettre en place un pipeline de traitement de flux en utilisant uniquement des commandes SQL (pas de codage Java ou Python).
Effectuer le filtrage des données, les transformations, les agrégations, les jointures, le fenêtrage et la sessionnalisation entièrement en SQL.
Concevoir et déployer des requêtes interactives et continues pour l'ETL en continu et l'analyse en temps réel.
Cette formation en direct avec instructeur en <loc> ; (en ligne ou sur site) est destinée aux personnes techniques qui souhaitent apprendre à mettre en œuvre une stratégie d'apprentissage automatique tout en maximisant l'utilisation des données massives (big data).
A l'issue de cette formation, les participants pourront :
Comprendre l'évolution et les tendances de l'apprentissage automatique.
Savoir comment l'apprentissage automatique est utilisé dans différents secteurs d'activité.
Se familiariser avec les outils, les compétences et les services disponibles pour mettre en œuvre l'apprentissage automatique au sein d'une organisation.
Comprendre comment l'apprentissage automatique peut être utilisé pour améliorer l'exploration et l'analyse des données.
Apprendre ce qu'est un backend de milieu de données et comment il est utilisé par les entreprises.
Comprendre le rôle que jouent les big data et les applications intelligentes dans tous les secteurs d'activité.
Au cours de cette formation en direct, dirigée par un instructeur, à Nantes (sur place ou à distance), les participants apprendront à déployer et à gérer Apache NiFi dans un environnement de laboratoire réel.
A la fin de cette formation, les participants seront capables de :
Installer et configurer Apachi NiFi.
Rechercher, transformer et gérer des données à partir de sources de données disparates et distribuées, y compris les bases de données et les lacs de données.
Automatiser les flux de données.
Permettre l'analyse en continu.
Appliquer différentes approches pour l'ingestion de données.
Transformer les données Big Data en informations commerciales.
Au cours de cette formation en direct et dirigée par un instructeur dans Nantes, les participants apprendront les principes fondamentaux de la programmation par flux en développant un certain nombre d'extensions, de composants et de processeurs de démonstration à l'aide de Apache NiFi.
A la fin de cette formation, les participants seront capables de :
Comprendre l'architecture de NiFi et les concepts de flux de données.
Développer des extensions en utilisant NiFi et des APIs tierces.
Développer leur propre processeur Apache Nifi.
Ingérer et traiter des données en temps réel à partir de formats de fichiers et de sources de données disparates et peu communs.
[Le cloud est un moteur de traitement de données distribué qui facilite la recherche et l'indexation de fichiers sur un réseau distribué.
Dans cette formation en direct avec instructeur, les participants apprendront à mettre en place une instance SolrCloud sur Amazon AWS.
A la fin de cette formation, les participants seront capables de :
Comprendre les caractéristiques de SolCloud et les comparer à celles des clusters maître-esclave conventionnels
Configurer un cluster centralisé SolCloud
Automatiser des processus tels que la communication avec les shards, l'ajout de documents aux shards, etc.
Utiliser Zookeeper en conjonction avec SolrCloud pour automatiser davantage les processus.
Utiliser l'interface pour gérer les rapports d'erreurs
Équilibrer la charge d'une installation SolrCloud.
Configurer SolrCloud pour un traitement continu et un basculement.
Audience
Développeurs Solr
Chefs de projet
Administrateurs système
Analystes de recherche
Format du cours permettant d'évaluer les participants
Une partie de cours, une partie de discussion, des exercices et une grande partie de pratique.
Cette formation en direct avec instructeur dans Nantes (en ligne ou sur site) est destinée aux ingénieurs de données, aux scientifiques de données et aux programmeurs qui souhaitent utiliser les fonctionnalités de Spark Streaming dans le traitement et l'analyse de données en temps réel.
À la fin de cette formation, les participants seront en mesure d'utiliser Spark Streaming pour traiter des flux de données en temps réel et les utiliser dans des bases de données, des systèmes de fichiers et des tableaux de bord en temps réel.
MLlib est la bibliothèque d'apprentissage automatique (ML) de Spark. Son objectif est de rendre l'apprentissage pratique pratique évolutif et facile. Il comprend des algorithmes et des utilitaires d'apprentissage courants, notamment la classification, la régression, la mise en cluster, le filtrage collaboratif, la réduction de la dimensionnalité, ainsi que des primitives d'optimisation de niveau inférieur et des API de pipeline de niveau supérieur.
Il se divise en deux paquets:
spark.mllib contient l'API d'origine construite sur les RDD.
spark.ml fournit des API de niveau supérieur construites à partir de DataFrames pour la construction de pipelines ML.
Public
Ce cours s’adresse aux ingénieurs et aux développeurs qui souhaitent utiliser une bibliothèque de machines intégrée à Apache Spark
Cette formation en direct (en ligne ou sur site) est destinée aux personnes techniques qui souhaitent déployer Talend Open Studio for Big Data pour simplifier le processus de lecture et d'analyse des données.
A l'issue de cette formation, les participants seront capables de :
Installer et configurer Talend Open Studio for Big Data.
Connecter avec les systèmes Big Data tels que Cloudera, HortonWorks, MapR, Amazon EMR et Apache.
Comprendre et configurer les composants et connecteurs Big Data d'Open Studio.
Configurer les paramètres pour générer automatiquement du code MapReduce.
Utiliser l'interface glisser-déposer d'Open Studio pour exécuter des tâches Hadoop.
Prototypez des pipelines de big data.
Automatiser les projets d'intégration de big data.
Teradata est l'un des systèmes relationnels Database Management les plus populaires. Il convient principalement à la création d'applications d'entreposage de données à grande échelle. Teradata y parvient grâce au concept de parallélisme.
Ce cours présente aux participants le Teradata.
Cette formation en direct, dirigée par un instructeur, présente les concepts qui sous-tendent l'analyse interactive des données et guide les participants dans le déploiement et l'utilisation de Zeppelin dans un environnement mono-utilisateur ou multi-utilisateurs.
A l'issue de cette formation, les participants seront capables de :
Installer et configurer Zeppelin
Développer, organiser, exécuter et partager des données dans une interface basée sur un navigateur
Visualiser les résultats sans se référer à la ligne de commande ou aux détails du cluster
Exécuter et collaborer sur de longs flux de travail
Travailler avec un certain nombre de langages et de traitements de données plug-in, tels que Scala (avec Apache Spark), Python (avec Apache Spark), Spark SQL, JDBC, Markdown et Shell.
Intégrer Zeppelin à Spark, Flink et Map Reduce
Sécuriser les instances multi-utilisateurs de Zeppelin avec Apache Shiro
ZooKeeper est un service centralisé qui maintient les informations de configuration, le nommage, la synchronisation distribuée et les services de groupe.
En savoir plus...
Dernière Mise À Jour:
Nos clients témoignent (25)
Le formateur était très sympathique et m'a appris ce dont j'avais besoin pour faire mon travail, cours personnalisé avec de la pratique pour bien assimilé. J'ai fais pas mal de formation est celle-ci était l'une des meilleurs. Merci à lui pour ces explications clairs.
Thomas - DGFIP - SSI
Formation - Apache Zookeeper
La capacité du formateur à aligner le cours sur les exigences de l'organisation et à ne pas se contenter de dispenser le cours pour le plaisir de le faire.
Masilonyane - Revenue Services Lesotho
Formation - Big Data Business Intelligence for Govt. Agencies
Traduction automatique
Beaucoup d'exemples pratiques, différentes façons d'aborder le même problème, et parfois des astuces pas si évidentes pour améliorer la solution actuelle.
Rafal - Nordea
Formation - Apache Spark MLlib
Traduction automatique
Le formateur maîtrisait bien les concepts
Josheel - Verizon Connect
Formation - Amazon Redshift
Traduction automatique
La bonne humeur, l'accompagnement et les compétences du formateur.
Oumayma - Physiobotic
Formation - Scaling Data Pipelines with Spark NLP
fonctions analytiques
khusboo dassani - Tech Northwest Skillnet
Formation - SQL Advanced
Traduction automatique
Les exemples en direct
Ahmet Bolat - Accenture Industrial SS
Formation - Python, Spark, and Hadoop for Big Data
Traduction automatique
comment le formateur démontre ses connaissances dans le sujet qu'il enseigne
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Formation - Data Vault: Building a Scalable Data Warehouse
Traduction automatique
J'ai apprécié la formation sur le Maven et comment le configurer. J'aime utiliser le langage de programmation Java.
Robert Cost - Corning Incorporated
Formation - Apache ActiveMQ
Traduction automatique
connaissance du formateur
Fatma Badi - Dubai Electricity & Water Authority
Formation - Big Data - Data Science
Traduction automatique
très interactif...
Richard Langford
Formation - SMACK Stack for Data Science
Traduction automatique
Une pratique suffisante, le formateur est compétent
Chris Tan
Formation - A Practical Introduction to Stream Processing
Traduction automatique
Pendant les exercices, James m'a expliqué chaque étape en détail là où j'étais bloqué. Je n'avais aucune expérience avec NIFI au départ. Il m'a expliqué le véritable objectif de NIFI, y compris des notions de base comme le code source ouvert. Il a couvert tous les concepts de Nifi, du niveau débutant au niveau développeur.
Firdous Hashim Ali - MOD A BLOCK
Formation - Apache NiFi for Administrators
Traduction automatique
Préparation et organisation du formateur, et qualité des matériaux fournis sur GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Formation - Impala for Business Intelligence
Traduction automatique
Discussion ouverte avec le formateur
Tomek Danowski - GE Medical Systems Polska Sp. Z O.O.
Formation - Process Mining
Traduction automatique
Découvrez le streaming Spark, Databricks et AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Formation - Apache Spark in the Cloud
Traduction automatique
Très utile car cela m'aide à comprendre ce que nous pouvons faire avec les données dans notre contexte. Cela m'aidera également
Nicolas NEMORIN - Adecco Groupe France
Formation - KNIME Analytics Platform for BI
Traduction automatique
Que je l'aie eu dans un premier temps.
Peter Scales - CACI Ltd
Formation - Apache NiFi for Developers
Traduction automatique
Formateur très compétent et ravie de s'arrêter pour expliquer les choses au groupe ou à un individu.
Paul Anstee - Northrop Grumman
Formation - Apache Accumulo Fundamentals
Traduction automatique
Formation intéressante, remplie de sujets captivants. Des exemples utiles ont été fournis après chaque sujet.
Pawel Wojcikowski - MicroStrategy Poland Sp. z o.o.
Formation - Teradata Fundamentals
Traduction automatique
les choses pratiques à faire, ainsi que la théorie qui a été bien expliquée par Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Formation - Hadoop Administration on MapR
Traduction automatique
tâches pratiques
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Formation - Python and Spark for Big Data (PySpark)
Traduction automatique
Rappel/revue des points clés des sujets discutés.
Paolo Angelo Gaton - SMS Global Technologies Inc.
Formation - Building Stream Processing Applications with Kafka Streams
Traduction automatique
La machine virtuelle que j'ai beaucoup aimée
Le formateur était très compétent sur le sujet ainsi que sur d'autres sujets, il était très sympathique et accueillant
J'ai aimé les installations à Dubaï.
Safar Alqahtani - Elm Information Security
Formation - Big Data Analytics in Health
Traduction automatique
J'ai vraiment apprécié les exercices de transmission manuelle.
Yunfa Zhu - Environmental and Climate Change Canada
Big Data formation à Nantes, Weekend Big Data cours à Nantes, Soir Big Data formation à Nantes, Big Data formateur en ligne à Nantes, Big Data formation à Nantes, Big Data cours du soir à Nantes, Big Data formation Intra à Nantes, Big Data formation Intra Entreprise à Nantes, Big Data formation Inter à Nantes, Big Data formation Inter Entreprise à Nantes, Big Data cours particuliers à Nantes, Big Data formateur à Nantes, Big Data cours privé à Nantes, Big Data préparation aux examens à Nantes, Weekend Big Data formation à Nantes, Big Data stage de préparation à Nantes, Big Data sur place à Nantes, Big Data instructeur à Nantes, Soir Big Data cours à Nantes, Big Data coach à Nantes, Big Data professeur à Nantes,Big Data cours à Nantes, Big Data préparation à Nantes, Big Data coaching à Nantes, Big Data entraînement à Nantes