Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Chaque séance dure 2 heures
Jour 1 : Session -1 : Business Aperçu du pourquoi Big Data Business L'intelligence dans Govt.
- Études de cas du NIH et du DoE
- Big Data taux d'adaptation en Govt. Les agences et comment elles alignent leurs futures opérations autour de Big Data Predictive Analytics
- Domaine d'application à grande échelle dans le DoD, la NSA, l'IRS, l'USDA, etc.
- Interfaçage Big Data avec les données héritées
- Compréhension de base des technologies habilitantes dans l'analyse prédictive
- Data Integration & Visualisation du tableau de bord
- Gestion de la fraude
- Business Génération de règles/détection de fraude
- Détection et profilage des menaces
- Analyse coûts-avantages pour la mise en œuvre de Big Data
Jour-1 : Session-2 : Introduction de Big Data-1
- Principales caractéristiques de Big Data-volume, variété, vélocité et véracité. Architecture MPP pour le volume.
- Data Warehouses – schéma statique, ensemble de données évoluant lentement
- MPP Database comme Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop Solutions basées – aucune condition sur la structure de l’ensemble de données.
- Modèle typique : HDFS, MapReduce (crunch), récupération depuis HDFS
- Lot adapté aux applications analytiques/non interactives
- Volume : données en streaming CEP
- Choix typiques – produits CEP (par exemple Infostreams, Apama, MarkLogic, etc.)
- Moins prêt pour la production – Storm/S4
- NoSQL Databases – (colonne et valeur-clé) : Idéal comme complément analytique à l'entrepôt de données/base de données
Jour-1 : Session -3 : Introduction à Big Data-2
NoSQL solutions
- Magasin KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Magasin KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Magasin KV (hiérarchique) - GT.m, Cache
- KV Store (commandé) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Cache KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Objet Database - ZopeDB, DB40, Shoal
- Magasin de documents - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Large magasin en colonnes - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variétés de données : introduction au problème Data Cleaning dans Big Data
- SGBDR – structure/schéma statique, ne favorise pas un environnement agile et exploratoire.
- NoSQL – semi-structuré, suffisamment structuré pour stocker des données sans schéma exact avant de stocker les données
- Problèmes de nettoyage des données
Jour-1 : Session-4 : Big Data Introduction-3 : Hadoop
- Quand sélectionner Hadoop ?
- STRUCTURÉ – Les entrepôts de données/bases de données d'entreprise peuvent stocker des données massives (à un coût) mais imposer une structure (pas bon pour l'exploration active)
- Données SEMI-STRUCTURÉES – difficiles à réaliser avec des solutions traditionnelles (DW/DB)
- Données d'entreposage = effort ÉNORME et statique même après la mise en œuvre
- Pour la variété et le volume de données, basés sur du matériel standard – HADOOP
- Produits matériels et matériels nécessaires pour créer un cluster Hadoop
Introduction à Map Réduire /HDFS
- MapReduce – répartissez l'informatique sur plusieurs serveurs
- HDFS – rendre les données disponibles localement pour le processus informatique (avec redondance)
- Données – peuvent être non structurées/sans schéma (contrairement au SGBDR)
- Responsabilité du développeur de donner un sens aux données
- Programming MapReduce = travailler avec Java (avantages/inconvénients), chargement manuel des données dans HDFS
Jour 2 : Session 1 : Big Data Construction d'un écosystème Big Data ETL : univers de Big Data Outils - lequel utiliser et quand ?
- Hadoop vs autres solutions NoSQL
- Pour un accès interactif et aléatoire aux données
- Hbase (base de données orientée colonnes) au-dessus de Hadoop
- Accès aléatoire aux données mais restrictions imposées (max 1 Po)
- Pas bon pour les analyses ad hoc, bon pour la journalisation, le comptage et les séries chronologiques
- Sqoop - Importer depuis des bases de données vers Hive ou HDFS (accès JDBC/ODBC)
- Flume – Diffusez des données (par exemple, des données de journal) dans HDFS
Jour 2 : Session 2 : Big Data Management Système
- Pièces mobiles, démarrage/échec des nœuds de calcul :ZooKeeper - Pour les services de configuration/coordination/naming
- Pipeline/workflow complexe : Oozie – gérer le workflow, les dépendances et la connexion en série
- Déployer, configurer, gestion de cluster, mise à niveau, etc. (administrateur système) :Ambari
- Dans le Cloud : Whirr
Jour-2 : Session-3 : Analyse prédictive dans Business Intelligence -1 : Techniques fondamentales et BI basée sur l'apprentissage automatique :
- Introduction à l'apprentissage automatique
- Apprentissage des techniques de classification
- Fichier de formation pour la préparation de la prédiction bayésienne
- Machine à vecteurs de support
- KNN p-Algèbre des arbres et exploitation minière verticale
- Réseau neuronal
- Big Data problème de grandes variables - Forêt aléatoire (RF)
- Big Data Problème d’automatisation – RF d’ensemble multimodèle
- Automatisation via Soft10-M
- Outil d'analyse de texte-Treeminer
- Agile apprentissage
- Apprentissage basé sur les agents
- Apprentissage distribué
- Introduction aux outils Open source pour l'analyse prédictive : R, Rapidminer, Mahut
Jour 2 : Session 4 Écosystème d'analyse prédictive-2 : Problèmes courants d'analyse prédictive dans Govt.
- Analyse d'informations
- Analyse de visualisation
- Analyse prédictive structurée
- Analyse prédictive non structurée
- Profilage des menaces, des fraudeurs et des fournisseurs
- Moteur de recommandation
- Détection de modèles
- Découverte de règles/scénarios – échec, fraude, optimisation
- Découverte des causes profondes
- Analyse des sentiments
- Analyse CRM
- Analyse de réseau
- Analyse de texte
- Examen assisté par la technologie
- Analyse de fraude
- Analyse en temps réel
Jour 3 : Session-1 : Temps réel et Scalable Analytic Over Hadoop
- Pourquoi les algorithmes analytiques courants échouent dans Hadoop/HDFS
- Apache Hama- pour l'informatique distribuée synchrone en masse
- Apache SPARK - pour le calcul en cluster pour des analyses en temps réel
- CMU Graphics Lab2 - Approche asynchrone basée sur des graphiques pour l'informatique distribuée
- Approche basée sur l'algèbre p KNN de Treeminer pour réduire les coûts d'exploitation du matériel
Jour 3 : Session 2 : Outils pour la découverte électronique et la criminalistique
- eDiscovery sur Big Data par rapport aux données héritées – une comparaison des coûts et des performances
- Codage prédictif et révision assistée par la technologie (TAR)
- Démo en direct d'un produit Tar (vMiner) pour comprendre comment TAR fonctionne pour une découverte plus rapide
- Indexation plus rapide via HDFS – vitesse des données
- Traitement du Langage Naturel ou PNL – diverses techniques et produits open source
- eDiscovery en langues étrangères – technologie pour le traitement des langues étrangères
Jour 3 : Session 3 : Big Data BI pour Cyber Security – Comprendre les vues complètes à 360 degrés de la collecte rapide de données jusqu'à l'identification des menaces
- Comprendre les bases de l'analyse de sécurité : surface d'attaque, mauvaise configuration de la sécurité, défenses de l'hôte
- Infrastructure réseau/Grand canal de données/Réponse ETL pour une analyse en temps réel
- Prescriptif vs prédictif – Basé sur des règles fixes ou découverte automatique des règles de menace à partir des métadonnées
Jour 3 : Session 4 : Big Data à l'USDA : Application en agriculture
- Introduction à l'IoT (Internet des objets) pour l'agriculture basée sur des capteurs Big Data et le contrôle
- Introduction à l'imagerie satellitaire et à son application en agriculture
- Intégration de données de capteurs et d'images pour la fertilité du sol, les recommandations de culture et les prévisions
- Assurance agricole et Big Data
- Prévision des pertes de récolte
Jour 4 : Session 1 : BI sur la prévention de la fraude de Big Data dans Govt-Fraud analytique :
- Classification de base de l'analyse de la fraude : analyse basée sur des règles ou analyse prédictive
- Apprentissage automatique supervisé ou non supervisé pour la détection des modèles de fraude
- Fraude des fournisseurs/facturation excessive des projets
- Fraude Medicare et Medicaid - techniques de détection de la fraude pour le traitement des réclamations
- Fraudes au remboursement des voyages
- Fraudes au remboursement IRS
- Des études de cas et des démonstrations en direct seront présentées partout où les données sont disponibles.
Jour 4 : Session-2 : Social Media Analytique – Collecte et analyse de renseignements
- Big Data API ETL pour extraire les données des réseaux sociaux
- Texte, image, métadonnées et vidéo
- Analyse des sentiments à partir du flux des médias sociaux
- Filtrage contextuel et non contextuel des flux de médias sociaux
- Social Media Tableau de bord pour intégrer divers médias sociaux
- Profilage automatisé du profil des réseaux sociaux
- Une démonstration en direct de chaque analyse sera proposée via Treeminer Tool.
Jour-4 : Session-3 : Big Data Analyse en traitement d'images et flux vidéo
- Techniques de stockage d'images dans Big Data - Solution de stockage pour les données dépassant les pétaoctets
- LTFS et LTO
- GPFS-LTFS (solution de stockage en couches pour les données d'images volumineuses)
- Fondamentaux de l'analyse d'images
- Reconnaissance d'objets
- Segmentation d'images
- Suivi de mouvement
- Reconstruction d'images 3D
Jour 4 : Session 4 : Big Data applications aux NIH :
- Domaines émergents de la Bio-informatique
- Problèmes de méta-génomique et Big Data d'exploitation minière
- Big Data Analyse prédictive pour la pharmacogénomique, la métabolomique et la protéomique
- Big Data dans le processus de génomique en aval
- Application de l'analyse prédictive Big data à la santé publique
Big Data Tableau de bord pour un accès rapide à diverses données et affichage :
- Intégration de la plateforme d'application existante avec Big Data Dashboard
- Big Data gestion
- Étude de cas de Big Data Tableau de bord : Tableau et Pentaho
- Utilisez l'application Big Data pour diffuser les services basés sur la localisation dans Govt.
- Système de suivi et gestion
Jour-5 : Session-1 : Comment justifier Big Data la mise en œuvre de la BI au sein d'une organisation :
- Définir le retour sur investissement pour la mise en œuvre de Big Data
- Études de cas permettant aux analystes de gagner du temps pour la collecte et la préparation des données – augmentation du gain de productivité
- Études de cas sur les gains de revenus résultant de la réduction du coût de la base de données sous licence
- Gain de revenus grâce aux services géolocalisés
- Économiser grâce à la prévention de la fraude
- Une approche intégrée de feuille de calcul pour calculer env. dépenses par rapport aux gains/économies de revenus résultant de la mise en œuvre de Big Data.
Jour 5 : Session 2 : Procédure étape par étape pour remplacer le système de données existant par le système Big Data :
- Comprendre la feuille de route pratique Big Data pour la migration
- Quelles sont les informations importantes nécessaires avant de concevoir une implémentation Big Data
- Quelles sont les différentes manières de calculer le volume, la vélocité, la variété et la véracité des données
- Comment estimer la croissance des données
- Études de cas
Jour 5 : Session 4 : Examen de Big Data fournisseurs et examen de leurs produits. Séance de questions/réponses :
- Accenture
- APTEAN (anciennement CDC Software)
- Cisco Systèmes
- Cloudera
- Dell
- CEM
- GoodData Corporation
- Guavus
- Systèmes de données Hitachi
- Hortons
- HP
- IBM
- Informatique
- Intel
- Jaspersoft
- Microsoft
- MongoDB (anciennement 10Gen)
- MU Sigma
- Netapp
- Solutions Opéra
- Oracle
- Pentaho
- Plateforme
- Qliktech
- Quantum
- Espace rackable
- Analyse de la révolution
- Salesforce
- SAP
- SAS Institut
- Sisense
- Software AG/Terre cuite
- Automatisation Soft10
- Splunk
- Sqrl
- Supermicro
- Tableau Logiciel
- Teradata
- Voir grand
- Systèmes de marquage des marées
- Mineur d'arbres
- VMware (partie d'EMC)
Pré requis
- Connaissance de base des opérations commerciales et des systèmes de données du gouvernement dans leur domaine
- Compréhension de base de SQL/Oracle ou d'une base de données relationnelle .
- Compréhension de base de Statistics (au niveau du tableur)
35 Heures
Nos clients témoignent (1)
La capacité du formateur à aligner le cours sur les exigences de l'organisation et à ne pas se contenter de dispenser le cours pour le plaisir de le faire.
Masilonyane - Revenue Services Lesotho
Formation - Big Data Business Intelligence for Govt. Agencies
Traduction automatique