Explorez vos données avec des algorithmes non supervisés

via

  • Provider
  • Cost
  • Session
  • Language
  • Certificate
  • Effort

Overview

Dans le cours Initiez-vous au machine learning, vous avez découvert comment transformer une question que vous avez sur vos données en un problème d’apprentissage automatique non supervisé. Dans ce cours, vous apprendrez à choisir et utiliser les principaux algorithmes qui permettent de résoudre ces problèmes.

Vous découvrirez comment réduire la dimension de vos données grâce à des techniques linéaires comme l’analyse en composantes principales (ACP), ou des techniques non linéaires comme le très populaire t-SNE. Vous découvrirez aussi comment fonctionnent trois familles d’algorithmes de clustering : le clustering hiérarchique, k-means et le clustering par densité.

Suivez ce cours pour apprendre à réduire la dimension de vos données, mieux les visualiser ou pour rendre vos algorithmes plus efficaces, et pour découvrir comment segmenter automatiquement vos données, sans avoir à définir des classes a priori.

Prérequis:

Ce cours de Data Science se situe au croisement des mathématiques et de l'informatique. Pour en profiter pleinement, n'hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :

  • Python pour le calcul numérique (numpy) et la création de graphiques (pyplot), que nous utiliserons dans les parties TP du cours,
  • Quelques notions d'algèbre linéaire : manipulation de vecteurs, multiplications de matrices, normes, et valeurs/vecteurs propres,
  • Quelques notions de probabilités et statistiques, telles que distribution de loi de probabilité et variance.
  • Le cours d'initiation, qui vous permettra de situer les algorithmes non supervisées au sein de l'ensemble des méthodes de machine learning

Syllabus

Part #1 - Utilisez un algorithme de réduction de dimension non supervisé linéaire
1. Comprenez pourquoi réduire la dimension de vos données
2. Calculez les composantes principales de vos données
3. TP — ACP d’un jeu de données sur les performances d’athlètes olympiques
4. Cherchez les variables latentes qui expliquent vos données
Quiz: Partie 1

Part #2 - Réduisez la dimension de vos données avec des algorithmes non linéaires
1. Découvrez la réduction dimensionnelle non-linéaire
2. Utilisez une ACP avec un noyau
3. Découvrez une variété qui conserve la structure globale
4. Découvrez une variété qui favorise la structure locale
Quiz: Partie 2

Part #3 - Partitionnez vos données avec un algorithme de clustering
1. Découvrez l’intérêt des algorithmes de clustering
2. Définissez les critères que doit satisfaire votre clustering
3. Partitionnez vos données avec un algorithme de clustering hiérarchique
4. Partitionnez vos données avec l’algorithme du k-means
5. Partitionnez vos données avec DBSCAN
Activity: Manipulez des algorithmes de clustering avec sklearn