
Alteryx Intelligence Suite
L’Intelligence Suite est maintenant sortie. Avec elle, on voit arriver les outils « Assisted Modelling » dans la catégorie « Machine Learning » qui permettent de créer un modèle de manière simple.
Avant d’entrer dans le vif du sujet, qu’est-ce que veut dire le terme « Assisted Modelling » ? C’est un nouvel outil Alteryx qui va permettre de guider l’utilisateur, étape par étape, pour la création d’un modèle prédictif. Prenons un exemple pour voir comment cela se passe concrètement et quelles sont les étapes, puis je vous donnerai mon avis sur cet outil !
Le fonctionnement
Pour tester ce nouvel outil, nous allons utiliser un jeu de données qui traite des pingouins et de la prédiction des espèces de pingouins basés sur plusieurs éléments : poids, longueur des nageoires, profondeur et largeur du bec, île de vie pour chacun des pingouins.
Passons à la pratique
Je vais d’abord séparer mon jeu de données en 2 parties ; une partie (70%) qui va me permettre d’entraîner mon modèle puis une partie (30%) pour vérifier ma prédiction et voir la précision de mon modèle.

Jusqu’ici rien de nouveau. Ensuite, je vais ajouter ce nouvel outil « Modélisation assistée », ou « Assisted Modelling », puis lancer mon workflow pour commencer la configuration de mon modèle (sans l’avoir lancé ou exécuté une fois, on ne peut pas le paramétrer).
Premier point, j’arrive sur une première fenêtre qui m’explique ce que je vais devoir faire sous la forme d’un tutoriel me permettant de prendre connaissance des principales étapes.

Première étape : sélectionner la variable et la méthode.
Je commence ensuite la construction et vais sélectionner la variable que je souhaite prédire, ici les espèces de pingouins.

J’ai une brève description de la catégorie de modèles qui va être utilisée, ici les modèles de classification.
Deuxième étape : définir les types de données.
Je vais ensuite pouvoir typer mes données avec des types recommandés basés sur une analyse rapide des données disponibles.

Troisième étape : nettoyer les valeurs manquantes.
Je vais ensuite pouvoir choisir quoi faire avec les valeurs manquantes, donc les remplacer, si jamais il y a trop de valeurs manquantes, cela pourrait diminuer la précision du modèle. C’est rapide et simple.

Quatrième étape : sélectionner les variables.
Une fois ceci fait, je vais pouvoir sélectionner mes variables prédicteurs et voir directement qu’il y a une variable ici qui est fortement associée à ma variable cible. L’indicateur est clair, on le voit et on va donc décocher la variable « island » qui est trop fortement corrélée, cela tronquerait le modèle, pour illustrer, ce serait comme essayer de prédire la nationalité en se basant sur le pays d’habitation, cela aurait trop de poids dans le modèle! On va donc ici supprimer cette variable qui est trop corrélée

Cinquième étape : sélectionner les modèles.
Avant-dernière étape, on va choisir les modèles que l’on veut tester avec quelques éléments pour comprendre les plus et les moins de chacun des modèles.

Dernière étape : exécuter les modèles sélectionnées.
Je lance mes modèles et Alteryx va les comparer les uns aux autres puis me donner un ensemble de statistiques liées à l’interprétation des modèles, avec notamment la précision qui permet de déterminer quel serait le modèle le plus performant.
Dans notre exemple, la « random Forest » est la plus performante. Je vais donc l’ajouter à mon workflow via un bouton au bas de l’écran.

Et voilà, en une petite dizaine de minutes, j’ai pu comparer plusieurs modèles et choisir celui qui était le plus performant. Je peux maintenant voir si ce modèle fonctionne correctement en utilisant l’outil « Predict Values » et en prenant mon échantillon de validation.
L’avis d’un ACE sur cet outil :
L’interface est simple et intuitive, J’ai particulièrement apprécié la possibilité de tester rapidement plusieurs modèles, de manière simple et didactique. N’étant pas data scientist, cet outil Assisted Modelling permet de rapidement faire quelque chose d’exploitable. En fouillant un peu une fois que le modèle est choisi, on voit que l’on peut modifier des paramètres de manière simple.
Pour conclure, je dirais que l’outil est très bien pensé, très simple à utiliser, mais à la fois pas assez poussé pour un « Data Scientist » (manque de paramétrage possible). En effet, l’outil est tellement simple à utiliser qu’un novice peut faire des modèles qui produiraient des prédictions fausses. J’aurais donc tendance à le mettre entre les mains d’un public relativement averti ou à minima d’un public supervisé par une personne avertie étant capable de remettre en cause les travaux réalisés.
Quelques ressources pour aller plus loin :
https://help.alteryx.com/2020.2/MachineLearning/MLModelingTool.htmhttps://
help.alteryx.com/2020.2/MachineLearning/MLPredictTool.htm