Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction à Data Science for Big Data Analytics
- Data Science Présentation du Big Data Présentation des structures de données Facteurs et complexités du Big Data Écosystème du Big Data et nouvelle approche de l'analyse Technologies clés dans le processus et les problèmes du Big Data Data Mining Association Pattern Mining Data Clustering Détection des valeurs aberrantes Classification des données
Introduction au cycle de vie de l'analyse des données
- Découverte Préparation des données Planification du modèle Construction du modèle Présentation/Communication des résultats Exercice d'opérationnalisation : étude de cas
À partir de ce moment, la majeure partie du temps de formation (80 %) sera consacrée à des exemples et à des exercices sur R et sur la technologie Big Data associée.
Débuter avec R
- Installation des fonctionnalités R et Rstudio des objets du langage R dans les données R dans R Manipulation des données Problèmes liés au Big Data Exercices
Premiers pas avec Hadoop
- Installation de Hadoop Comprendre Hadoop modes Architecture HDFS MapReduce Hadoop Présentation des projets associés Écriture de programmes dans Hadoop Exercices MapReduce
Intégration de R et Hadoop avec RHadoop
- Composants de RHadoop Installer RHadoop et se connecter avec Hadoop L'architecture de RHadoop Hadoop Streaming avec R Résolution de problèmes d'analyse de données avec RHadoop Exercices
Prétraitement et préparation des données
- Étapes de préparation des données Extraction des fonctionnalités Nettoyage des données Intégration et transformation des données Réduction des données – échantillonnage, sélection de sous-ensembles de fonctionnalités, réduction de la dimensionnalité Discrétisation et regroupement Exercices et étude de cas
Méthodes exploratoires d’analyse de données dans R
- Statistiques descriptives Analyse exploratoire des données Visualisation – étapes préliminaires Visualisation d'une variable unique Examen de plusieurs variables Méthodes statistiques d'évaluation Test d'hypothèse Exercices et étude de cas
Data Visualizations
- Visualisations de base dans R Packages pour la visualisation de données ggplot2, lattice, plotly, lattice Formatage des tracés dans R Graphiques avancés Exercices
Régression (estimation des valeurs futures)
- Régression linéaire Cas d'utilisation Description du modèle Diagnostic Problèmes avec la régression linéaire Méthodes de retrait, régression de crête, le lasso Généralisations et non-linéarité Splines de régression Régression polynomiale locale Modèles additifs généralisés Régression avec RHadoop Exercices et étude de cas
Classification
- Les problèmes liés à la classification Rappel bayésien Bayes naïf Régression logistique K-plus proches voisins Algorithme d'arbres de décision Réseaux de neurones Machines à vecteurs de support Diagnostic des classificateurs Comparaison des méthodes de classification Scala algorithmes de classification ble Exercices et étude de cas
Évaluation des performances et de la sélection du modèle
- Biais, variance et complexité du modèle Précision vs interprétabilité Évaluation des classificateurs Mesures des performances du modèle/algorithme Méthode de validation de maintien Validation croisée Optimisation des algorithmes d'apprentissage automatique avec le package caret Visualisation des performances du modèle avec les courbes Profit ROC et Lift
Méthodes d'ensemble
- Bagging Random Forests Boosting Exercices de boosting de gradient et étude de cas
Machines vectorielles de support pour la classification et la régression
- Classificateurs de marge maximale Prise en charge des classificateurs vectoriels Prise en charge des machines vectorielles SVM pour les problèmes de classification SVM pour les problèmes de régression
Sélection de fonctionnalités pour le clustering Algorithmes basés sur des k-moyennes, k-médoïdes Algorithmes hiérarchiques : méthodes agglomératives et divisives Algorithmes de base probabilistes : EM Algorithmes basés sur la densité : DBSCAN, DENCLUE Validation de cluster Concepts de clustering avancés Clustering avec RHadoop Exercices et étude de cas
- Découverte des connexions avec Link Analysis
Concepts d'analyse de liens Métriques pour l'analyse des réseaux L'algorithme Pagerank Sujet induit par des hyperliens Search Exercices de prédiction de liens et étude de cas
- Exploration de modèles d'association
Exploration de modèles fréquents Modèle Scala Problèmes de capacité dans l'exploration de modèles fréquents Algorithmes de force brute Algorithme apriori L'approche de croissance FP Évaluation des règles candidates Applications des règles d'association Validation et tests Diagnostics Règles d'association avec R et Hadoop Exercices et étude de cas
- Construire des moteurs de recommandations
Comprendre les systèmes de recommandation Techniques d'exploration de données utilisées dans les systèmes de recommandation Systèmes de recommandation avec le package recommendationrlab Évaluation des systèmes de recommandation Recommandations avec RHadoop Exercice : Création d'un moteur de recommandation
- Analyse de texte
Étapes d'analyse de texte Collecte de texte brut Sac de mots Fréquence des termes – Fréquence inverse des documents Détermination des sentiments Exercices et étude de cas
35 Heures
Nos clients témoignent (2)
Intensity, Training materials and expertise, Clarity, Excellent communication with Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Formation - Data Science for Big Data Analytics
The example and training material were sufficient and made it easy to understand what you are doing.