Machine learning
Completed
-
Présentation du cours
-
Présentation du machine learning
-
Apprentissage supervisé: régression linéaire
-
Travaux dirigés 1
-
Sur-apprentissage et régularisation
-
- Rejoindre ce cours pour accéder aux ressources
-
-
Travaux dirigés 2
-
Sélection de modèle et évaluation
-
- Rejoindre ce cours pour accéder aux ressources
-
Optimisation d’hyperparamètres
-
Travaux dirigés 3
-
- Rejoindre ce cours pour accéder aux ressources
-
-
Apprentissage supervisé: classification
-
- Rejoindre ce cours pour accéder aux ressources
-
Travaux dirigés 4
-
Réduction de dimension
-
- Rejoindre ce cours pour accéder aux ressources
-
Apprentissage supervisé: méthodes à noyaux
-
- Rejoindre ce cours pour accéder aux ressources
-
-
Travaux dirigés 5
-
Apprentissage non-supervisé: clustering
-
Travaux dirigés 6
-
Projet guidé
-
- Rejoindre ce cours pour accéder aux ressources
-
- Rejoindre ce cours pour accéder aux ressources
-
-
Projets non-guidés
Liste de projets
Dans cette section, vous allez sélectionner et éxecuter un projet en toute autonomie pour peaufiner vos compétences. Accéder au notebook Google Colab ci-dessous pour charger les données et commencer votre projet.
Project 1: détection de fraude financière
Auteur : Andrea Dal Pozzolo, Olivier Caelen et Gianluca Bontempi
Source : Détection de fraude à la carte de crédit - Date 25 juin 2015
L'ensemble de données contient des transactions effectuées par cartes de crédit en septembre 2013 par des titulaires de cartes européens. Cet ensemble de données présente les transactions survenues en deux jours, où nous avons 492 fraudes sur 284 807 transactions. L'ensemble de données est très déséquilibré, la classe positive (fraudes) représentant 0,172 % de toutes les transactions.
Il ne contient que des variables d'entrée numériques qui sont le résultat d'une transformation ACP (Analyse en Composantes Principales). Malheureusement, en raison de problèmes de confidentialité, nous ne pouvons pas fournir les caractéristiques originales ni plus d'informations contextuelles sur les données. Les caractéristiques V1, V2, ... V28 sont les composantes principales obtenues avec l'ACP, les seules caractéristiques qui n'ont pas été transformées avec l'ACP sont 'Time' (Temps) et 'Amount' (Montant). La caractéristique 'Time' contient les secondes écoulées entre chaque transaction et la première transaction dans l'ensemble de données. La caractéristique 'Amount' est le montant de la transaction, cette caractéristique peut être utilisée pour un apprentissage sensible aux coûts dépendant de l'exemple. La caractéristique 'Class' (Classe) est la variable de réponse et elle prend la valeur 1 en cas de fraude et 0 sinon.
L'ensemble de données a été collecté et analysé lors d'une collaboration de recherche entre Worldline et le Groupe d'Apprentissage Automatique (mlg.ulb.ac.be) de l'ULB (Université Libre de Bruxelles) sur l'exploration de données massives (big data) et la détection de fraude. Plus de détails sur les projets actuels et passés sur des sujets connexes sont disponibles sur http://mlg.ulb.ac.be/BruFence et http://mlg.ulb.ac.be/ARTML.
Accédez aux données sur openml.org avec id=1597 ou en cliquant sur le lien ci-dessous
Project 2: credit scoring
Auteur : Dr. Hans Hofmann
Source: UCI - 1994
Jeu de données de crédit allemand (German Credit dataset)
Cet ensemble de données classe les personnes décrites par un ensemble d'attributs comme présentant un bon ou un mauvais risque de crédit.
Cet ensemble de données est livré avec une matrice de coûts
Good Bad (predicted) Good 0 1 (actual) Bad 5 0
Il est pire de classer un client comme bon alors qu'il est mauvais (5), que de classer un client comme mauvais alors qu'il est bon (1).
Description des Attributs
- Statut du compte courant existant, en Deutsche Mark.
- Durée en mois
- Historique de crédit (crédits pris, remboursés ponctuellement, retards, comptes critiques)
- Objet du crédit (voiture, télévision,...)
- Montant du crédit
- Statut du compte d'épargne/obligations, en Deutsche Mark.
- Emploi actuel, en nombre d'années.
- Taux d'acomptes en pourcentage du revenu disponible
- Statut personnel (marié, célibataire,...) et sexe
- Autres débiteurs / garants
- Résidence actuelle depuis X années
- Propriété (par exemple, immobilier)
- Âge en années
- Autres plans de versement (banques, magasins)
- Logement (location, propriété,...)
- Nombre de crédits existants auprès de cette banque
- Emploi/Métier
- Nombre de personnes à la charge (devant subvenir aux besoins)
- Téléphone (oui, non)
- Travailleur étranger (oui, non)
Accédez aux données sur openml.org avec id=31 ou en cliquant sur le lien ci-dessous
Projet 3: détection de l'arrhythmie
Auteurs : H. Altay Guvenir, Burak Acar, Haldun Muderrisoglu Source : UCI Veuillez citer : UCI Base de Données sur les Arythmies Cardiaques (Cardiac Arrhythmia Database) L'objectif est de déterminer le type d'arythmie à partir des enregistrements ECG. Cette base de données contient 279 attributs, dont 206 sont à valeurs linéaires et les autres sont nominaux.
Concernant l'étude de H. Altay Guvenir :
« L'objectif est de faire la distinction entre la présence et l'absence d'arythmie cardiaque et de la classer dans l'un des 16 groupes.
La Classe 01 fait référence aux classes d'ECG « normales ».
Les Classes 02 à 15 font référence aux différentes classes d'arythmie.
La Classe 16 fait référence au reste des cas non classifiés.
Actuellement, il existe un programme informatique qui effectue une telle classification. Cependant, il existe des différences entre la classification du cardiologue et celle du programme. En prenant la classification du cardiologue comme étalon-or, nous visons à minimiser cette différence au moyen d'outils d'apprentissage automatique. »
Accédez aux données sur openml.org avec id=5 ou en cliquant sur le lien ci-dessous
Projet 4: Dérive d'un réseau de capteurs de gaz
Auteur : Alexander Vergara
Source : UCI - 2012
Informations sur l'Ensemble de Données
Jeu de données de dérive d'un réseau de capteurs de gaz (Gas Sensor Array Drift Dataset)
Cette archive contient 13 910 mesures provenant de 16 capteurs chimiques utilisées dans des simulations pour la compensation de la dérive dans une tâche de discrimination de 6 gaz à différents niveaux de concentration.
L'objectif est d'atteindre de bonnes performances (ou une dégradation aussi faible que possible) au fil du temps, comme indiqué dans l'article mentionné ci-dessous, Section 2 : Collecte des données.
Le but principal de la mise à disposition de cet ensemble de données est de le rendre librement accessible en ligne à la communauté de recherche sur les capteurs chimiques et à l'intelligence artificielle afin de développer des stratégies pour faire face à la dérive des capteurs/concepts. L'ensemble de données peut être utilisé exclusivement à des fins de recherche. Les fins commerciales sont totalement exclues.
L'ensemble de données a été collecté entre janvier 2007 et février 2011 (36 mois) dans une plateforme de distribution de gaz située au laboratoire ChemoSignals du BioCircuits Institute, University of California San Diego.
Fonctionnant entièrement par un environnement entièrement informatisé, contrôlé par le logiciel LabVIEW de National Instruments sur un PC équipé des cartes d'acquisition de données série appropriées. La plateforme du système de mesure offre la polyvalence nécessaire pour obtenir les concentrations souhaitées des substances chimiques d'intérêt avec une grande précision et d'une manière hautement reproductible, minimisant ainsi les erreurs courantes causées par l'intervention humaine et permettant de se concentrer exclusivement sur les capteurs chimiques pour compenser la dérive réelle.
L'ensemble de données résultant comprend des enregistrements de six substances gazeuses pures distinctes, à savoir l'Ammoniac, l'Acétaldéhyde, l'Acétone, l'Éthylène, l'Éthanol et le Toluène, chacune dosée à une grande variété de valeurs de concentration allant de 5 à 1000 ppmv. Une extension de cet ensemble de données avec les valeurs de concentration est disponible dans Gas Sensor Array Drift Dataset at Different Concentrations Data Set.
Informations sur les Attributs
La réponse desdits capteurs est lue sous la forme de la résistance à travers la couche active de chaque capteur. Ainsi, chaque mesure a produit une série temporelle à 16 canaux, chacune étant représentée par un agrégat de caractéristiques reflétant tous les processus dynamiques se produisant à la surface du capteur en réaction à la substance chimique évaluée.
En particulier, deux types distincts de caractéristiques ont été pris en compte dans la création de cet ensemble de données :
La caractéristique dite d'état stable, définie comme la différence entre le changement de résistance maximal et la ligne de base, et sa version normalisée exprimée par le rapport entre la résistance maximale et les valeurs de la ligne de base lorsque la vapeur chimique est présente dans la chambre d'essai.
Un agrégat de caractéristiques reflétant la dynamique du capteur de la portion transitoire croissante/décroissante de la réponse du capteur pendant toute la procédure de mesure dans des conditions contrôlées, à savoir la moyenne mobile exponentielle. Cet agrégat de caractéristiques est une transformation, empruntée au domaine de l'économétrie, initialement introduite dans la communauté de la chimio-détection par Muezzinoglu et al. (2009), qui convertit ladite portion transitoire en un scalaire réel, en estimant la valeur maximale (minimum pour la partie décroissante de la réponse du capteur) de sa moyenne mobile exponentielle, avec une condition initiale définie à zéro et un paramètre de lissage scalaire de l'opérateur, alpha, qui définit à la fois la qualité de la caractéristique et le moment de son apparition le long de la série temporelle. Ce scalaire est défini pour être compris entre 0 et 1. En particulier, trois valeurs différentes pour alpha ont été définies pour obtenir trois valeurs de caractéristiques différentes à partir de la portion montante préenregistrée de la réponse du capteur et trois caractéristiques supplémentaires avec les mêmes valeurs alpha, mais pour la portion décroissante de la réponse du capteur, couvrant ainsi l'intégralité de la dynamique de réponse du capteur.
Pour une analyse et une discussion plus détaillées de ces caractéristiques ainsi qu'une illustration graphique de celles-ci, veuillez vous référer respectivement à la Section 2.3 et à la Figure 2 du manuscrit annoté.
Une fois que les caractéristiques susmentionnées sont calculées, on forme un vecteur de caractéristiques contenant les 8 caractéristiques extraites de chaque capteur particulier, multiplié par les 16 capteurs considérés ici. Au final, il en résulte un vecteur de caractéristiques de 128 dimensions contenant toutes les caractéristiques indiquées ci-dessus.
Il existe six classes possibles :
Éthanol
Éthylène
Ammoniac
Acétaldéhyde
Acétone
Toluène
Accédez aux données sur openml.org avec id=1476 ou en cliquant sur le lien ci-dessous
Projet 5: prédiction des accès d'employés
Source: Kaggle Amazon Employee Access Challenge
Description
Les données consistent en des données historiques réelles collectées en 2010 et 2011. L'accès aux ressources par les employés était manuellement autorisé ou refusé au fil du temps. Les données sont utilisées pour créer un algorithme capable d'apprendre à partir de ces données historiques afin de prédire l'approbation/le refus d'accès pour un ensemble d'employés non encore observés.
Informations sur l'Ensemble de Données
Lorsqu'un employé commence à travailler dans une entreprise, il doit d'abord obtenir l'accès informatique nécessaire pour remplir son rôle. Cet accès peut lui permettre de lire/manipuler des ressources via diverses applications ou portails web. On suppose que les employés occupant les fonctions d'un rôle donné accèdent aux mêmes ressources ou à des ressources similaires. Il arrive souvent que les employés découvrent l'accès dont ils ont besoin au fur et à mesure qu'ils rencontrent des obstacles dans leur travail quotidien (par exemple, impossibilité de se connecter à un portail de rapports). Un superviseur compétent prend alors le temps d'accorder manuellement l'accès nécessaire pour surmonter ces obstacles. Lorsque les employés changent de poste au sein de l'entreprise, ce cycle de découverte/récupération d'accès entraîne une perte de temps et d'argent non négligeable.
Il existe une quantité considérable de données concernant le rôle d'un employé au sein d'une organisation et les ressources auxquelles il a accès. Compte tenu des données relatives aux employés actuels et à leurs accès provisionnés, des modèles peuvent être élaborés pour déterminer automatiquement les privilèges d'accès lorsque les employés entrent ou quittent des rôles au sein d'une entreprise. Ces modèles d'auto-accès visent à minimiser l'implication humaine requise pour accorder ou révoquer l'accès des employés.
L'ensemble de formation et l'ensemble de test d'origine ont été fusionnés.
Description des Attributs
ACTION [cible] : ACTION vaut 1 si la ressource a été approuvée, 0 si la ressource n'a pas été approuvée.
RESOURCE : Un ID pour chaque ressource.
MGR_ID : L'ID d'employé (EMPLOYEE ID) du responsable (manager) de l'enregistrement de l'EMPLOYEE ID actuel ; un employé ne peut avoir qu'un seul responsable à la fois.
ROLE_ROLLUP_1 : ID de la catégorie de regroupement de rôles de l'entreprise 1 (par exemple, Ingénierie US).
ROLE_ROLLUP_2 : ID de la catégorie de regroupement de rôles de l'entreprise 2 (par exemple, Vente au détail US).
ROLE_DEPTNAME : Description du département du rôle de l'entreprise (par exemple, Vente au détail).
ROLE_TITLE : Description du titre commercial du rôle de l'entreprise (par exemple, Responsable Principal de l'Ingénierie, Vente au détail).
ROLE_FAMILY_DESC : Description étendue de la famille de rôles de l'entreprise (par exemple, Responsable de la Vente au détail, Ingénierie logicielle).
ROLE_FAMILY : Description de la famille de rôles de l'entreprise (par exemple, Responsable de la Vente au détail).
ROLE_CODE : Code du rôle de l'entreprise ; ce code est unique à chaque rôle (par exemple, Responsable).
Accédez aux données sur openml.org avec id=4135 ou en cliquant sur le lien ci-dessous
Les commentaires ne sont pas activés sur ce cours.