Plan du cours
Introduction
Cette section fournit une introduction générale sur l'utilisation de l'apprentissage automatique, sur ce qu'il faut prendre en compte et sur ce que cela signifie, y compris les avantages et les inconvénients. Types de données (structurées/non structurées/statiques/en continu), validité/volume des données, analyse axée sur les données ou sur l'utilisateur, modèles statistiques ou modèles d'apprentissage automatique, défis de l'apprentissage non supervisé, compromis biais-variance, itération/évaluation, approches de validation croisée, supervisé/non supervisé/renforcement.
THÈMES PRINCIPAUX.
1. Comprendre les Bayes naïfs
- Concepts de base des méthodes bayésiennes
- Probabilité
- Probabilité jointe
- Probabilité conditionnelle avec le théorème de Bayes
- L'algorithme de Bayes naïf
- La classification de Bayes naïf
- L'estimateur de Laplace
- L'utilisation des caractéristiques numériques avec Bayes naïf
2. Comprendre les arbres de décision
- Diviser pour conquérir
- L'algorithme d'arbre de décision C5.0
- Choisir la meilleure division
- Pruning de l'arbre de décision
3. Comprendre les réseaux neuronaux
- Des neurones biologiques aux neurones artificiels
- Fonctions d'activation
- Topologie du réseau
- Le nombre de couches
- La direction du déplacement des informations
- Le nombre de nœuds dans chaque couche
- L'apprentissage des réseaux neuronaux avec la rétropropagation
- Deep Learning
4. Comprendre les machines à vecteurs de support
- Classification avec des hyperplans
- Trouver le maximum de marge
- Cas de données linéairement séparables
- Cas de données non-linéairement séparables
- L'utilisation de noyaux pour les espaces non-linéaires
5. Comprendre le regroupement
- Le regroupement comme tâche d'apprentissage automatique
- L'algorithme k-means pour le regroupement
- L'utilisation de la distance pour affecter et mettre à jour les groupes
- Choisir le nombre approprié de groupes
6. Mesurer les performances de la classification
- Traiter avec des données de prédiction de classification
- Examiner de plus près les matrices de confusion
- L'utilisation des matrices de confusion pour mesurer les performances
- Au-delà de l'exactitude – d'autres mesures de performance
- La statistique kappa
- Sensibilité et spécificité
- Précision et rappel
- La mesure F
- Visionner les compromis des performances
- Courbes ROC
- Estimer la performance future
- La méthode de retenue
- Validation croisée
- Bootstrap échantillonnage
7. Mise au point des modèles de stock pour une meilleure performance
- L'utilisation de caret pour l'ajustement automatique des paramètres
- Créer un modèle simple ajusté
- Personnaliser le processus d'ajustement
- Améliorer les performances du modèle avec l'apprentissage métacognitive
- Comprendre les ensembles
- Bagging
- Boosting
- Forêts aléatoires
- L'entraînement des forêts aléatoires
- Évaluer la performance de la forêt aléatoire
THÈMES MINEURS
8. Comprendre la classification à l'aide des voisins les plus proches
- L'algorithme kNN
- Calculer la distance
- Choisir un k approprié
- Préparer les données pour une utilisation avec kNN
- Pourquoi l'algorithme kNN est-il paresseux?
9. Comprendre les règles de classification
- Séparer et conquérir
- L'algorithme One Rule
- L'algorithme RIPPER
- Règles des arbres de décision
10. Comprendre la régression
- Régression linéaire simple
- Estimation par moindres carrés ordinaires
- Corrélations
- Régression linéaire multiple
11. Comprendre les arbres de régression et les arbres de modèle
- Ajouter la régression aux arbres
12. Comprendre les règles d'association
- L'algorithme Apriori pour l'apprentissage des règles d'association
- Mesurer l'intérêt de la règle – support et confiance
- Bâtir un ensemble de règles avec le principe Apriori
Extras
- Spark/PySpark/MLlib et bandits multi-bras