MasterClass Alectio : Comment créer des modèles d'Intelligence Artificielle moins énergivores et plus efficaces ?

Rédigé par Wild Code School | 17/12/2020

Spécialisée dans le Machine Learning, Jennifer Prendki, CEO d’Alectio et Experte à l’International Institute for Analytics, vous fait découvrir comment créer des modèles d’Intelligence Artificielle moins énergivores et plus efficaces. Curieux d’en savoir plus ? On vous a concocté un résumé de la MasterClass du mardi 8 décembre, de 16h à 17h !

C’est quoi, le Machine Learning ?

Commençons par le commencement ! Qui dit Machine Learning, dit Training Data Set.

Pour faire simple, un Training Data Set représente un ensemble de données que l’on peut utiliser à des fins prédictives, et que l’on traite par le biais d’un modèle de Machine Learning.

Le Training Data Set est constitué de trois types de données :

Les harmful data : données erronées ou de mauvaise qualité qui font régresser la performance du modèle utilisé. Si ces données sont rejetées, le modèle n’en sera que meilleur ;
Les useful data : données relativement claires que le modèle peut comprendre. Elles permettent de booster le modèle afin qu’il apprenne de nouvelles choses et qu’il soit plus performant ;
Les useless data : données trop similaires, non pertinentes ou non applicables au sujet traité. Si elles sont rejetées, cela permet à la fois une amélioration de la fonctionnalité du modèle et un gain de temps.

Ainsi, le Machine Learning peut être défini comme une technologie d’Intelligence Artificielle qui permet à un ordinateur, à partir d’une base de données, d’apprendre et d’effectuer des prédictions de manière automatique.

Pourquoi avoir créé Alectio ?

Alectio est la première startup qui se focalise sur la curation automatique de données et l'optimisation de collecte de ces dernières. Jennifer Prendki et son équipe ont pour mission d'aider les équipes de Machine Learning à construire des modèles performants en utilisant moins de données, et en réduisant les coûts et le temps associés à l'entraînement du modèle. Ainsi, Alectio va pouvoir prédire dans son propre modèle quelles sont les données harmful, useful et useless.

Créer de meilleures prédictions avec moins de données, c’est possible ?

Oui ! Et Alectio nous le prouve au quotidien. Selon eux, not all data is created equal. En effet, toutes les données ne possèdent pas la même valeur. Certaines sont plus utiles que d’autres, et c’est pour cette raison que leur identification et leur sélection doivent combiner précision et pertinence.

Alectio utilise une technologie semi-supervisée que l’on appelle “Active Learning”, soit l’apprentissage actif. Cette méthode est qualifiée ainsi, car elle permet de sélectionner les données de manière active et incrémentale afin d’identifier l’échantillon qui contient le maximum d’informations.

Comment fonctionne l’Active Learning ?

Ce modèle fonctionne avec un système de boucle, qui va lui permettre de s’auto-modifier et s’auto-améliorer en fonction des données collectées et analysées. Il est composé de quatre phases successives, qui se renouvellent à chaque fin de cycle :

SELECT : Sélection d’une partie des données en évitant de choisir des données trop similaires. C’est ce que l’on appelle l’inquiring strategy ;
LABEL : Phase d’annotation, ou étiquetage, des données en interne ou en externe ;
TRAIN : Entraînement du modèle avec les données sélectionnées et annotées ;
INFER : Prédictions à partir de l’ensemble des données annotées.

Si les prédictions sont satisfaisantes, le processus peut être stoppé. Dans le cas inverse, les analystes sélectionnent une autre partie des données collectées, les ajoutent à celles qui ont déjà été annotées et traitées, puis repassent par chaque étape de l’Active Learning jusqu’à parvenir à un résultat satisfaisant.

L’Active Learning nous prouve alors qu’un modèle peut lui-même apprendre à partir des données qu’il analyse, et ce, de manière progressive. Ce système lui permet ainsi de construire une courbe d’apprentissage, soit la relation entre la performance du modèle et la quantité de données utilisées.

Bien que certaines entreprises utilisent des méthodes supervisées, c’est-à-dire qu’elles utilisent l’ensemble des données collectées sans en faire le tri, l’Active Learning est une méthode essentielle. En effet, seulement 25% des données collectées sont réellement pertinentes et applicables. Dans les cas les plus extrêmes, cela peut descendre à moins de 1% !

Quels sont les avantages et les inconvénients de l’Active Learning ?

Avantages

Réduction des coûts d’annotation ;
Possibilité d’entraîner les modèles de manière plus rapide ;
Sélection intelligente des données.

Inconvénients

Temps d’entraînement plus long dû à la sélection progressive des données ;
Risques plus élevés de commettre des erreurs ;
Coûts de calcul plus élevés.

La bonne nouvelle, c’est que les inconvénients peuvent être évités en combinant l’Active Learning avec d’autres techniques telles que le Reinforcement Learning et le Meta Learning. De plus en plus de recherches sont effectuées dans ce domaine, promettant des avancées considérables au cours des prochaines années.

Pour en savoir plus...

Vous souhaitez découvrir et tester cette nouvelle plateforme ? On vous donne rendez-vous sur le site d’Alectio.

Si le secteur de la Data vous intéresse, consultez notre fiche métier Data Analyst.

Voir l'article complet