Automated Analytics : quand le machine learning s’applique au machine learning !
Apres 2015, les analytics ont bénéficié de l’apport de nouvelles technologies, et deviennent de plus en plus “augmentés”. L’explosion de la quantité des données et la baisse du coût de stockage, accompagnées de la révolution cloud, ont permis de faire émerger une utilisation bien plus courante de l’IA : maintenance prévisionnelle, veille contre la fraude, suggestions de produits en marketing…
Mais ce que permet avant tout l’IA, c’est l’automatisation de tâches auparavant seulement réalisables par l’homme. Pour le moment, on vise une prise de décision plus ou moins automatisée dans ce que Julien Vong qualifie de “ micro décision” (IA explique toi, N4 StepWIse by QuantMetry ), c’est à dire à un faible niveau de complexité et dont on peut considérer qu’une erreur serait corrigeable et à faible impact. Gartner considère que d’ici 2025, 50% des tâches actuellement réalisées par les équipes data pourront être automatisées !
Gartner considère que d’ici 2025, 50% des taches actuellement réalisées par les équipes data pourront être automatisées !
Automatisation de la préparation des données
Nettoyer la donnée avant qu’elle puisse être utilisée est encore un processus très largement manuel, et ce malgré des systèmes self-service simplifiés. On introduit dès lors la possibilité d’une erreur humaine avant même que l’analyse n’aie commencé .. ! Les analytics augmentés sont caractérisés par une amelioration significative de cette étape.
Cette étape est cruciale. Sous l’acronyme l’ETL (Extract Transform Load) soit extraire et déterminer la nature des données, nettoyer la data et enfin rassembler le tout sous forme analysable, se trouvent des tâches qui occupent jusque 80% du temps des data analyst d’après Krzysztof Surowiecki, Partner chez Hexe Data.
Automatisation de l’analytique avancée : l’aspect predictif
Il convient de distinguer deux types d’automatisation analytique : l’une pour accélérer le travail des data-scientist et leur permettre de faire des prévisions plus efficacement, et l’autre pour rendre complètement autonomes les métiers. Cette dernière implique forcement une automatisation quasi globale de toute la chaine de production des insights.
Jusque là , l’analyse data était un processus bien rôdé : ajout des données, génération d’un rapport, analyse du rapport pour trouver des informations impactantes. Désormais, c’est une intelligence continue qui est visée, capable de mettre en correlation directe les données passées et les données présentes. Le but étant de faire des recommandations immédiates et opérationnelles, basées sur la capacité à identifier des tendances. Plus qu’une simple analyse statistique descriptive, c’est un travail d’auto-apprentissage.
L’automatisation des analytics, c’est passer du predictif, basé sur l’analyse de données passées, au prescriptif, basé sur des recommandations… Toute la subtilité étant de choisir qui prendra la décision, en assumant cette responsabilité : homme ou machine ?
Apprentissage automatique : de l’importance de l’intelligibilité du machine learning
L’intelligibilité d’un algorithme, ou son “interprétabilité”, pour reprendre l’anglicisme plus courant, représente un levier essentiel sur le long chemin de la datalphabétisation ( ou “data-literacy”, ou encore culture de la donnée)
En effet, les algorithmes d’analyses avancées ont soit été achetés à l’extérieur de l’organisation, soit développés par des data-scientists qu’on peut considérer “isolés “ du reste de l’organisation de par leur compétences techniques. Et en fonction des modèles, il semble parfois impossible de caractériser l’impact d’une variable : c’est le fameux effet “ boite noire”.
Or, la capacité à utiliser les insights fournis est directement proportionnelle à la confiance accordée à la manière dont cet insight est créé. Il y a un vrai défi à relever pour que les utilisateurs finaux s’approprient sereinement les augmented analytics, et l’intelligibilité est une des clefs de leur adoption. Le NLP, et la capacité d’un outil à expliquer le chiffre fourni, en sera une autre.
La suite très bientôt !