<< Back

Strava Data – Part I

Il y a quelque temps, l’un de nos collègue Anglais est venu nous rendre visite à Paris, avec un challenge :
Il souhaitait reproduire avec Alteryx et Tableau le résultat suivant (obtenu avec R)

Soit une vue des différents parcours de course, provenant de données «.gpx » (des données GPS encodées en XML), obtenues depuis des applications de tracking telles que Strava, etc.
Il nous a fourni ses données GPX et après un travail d’équipe, un workflow Alteryx et une visualisation Tableau, nous avons obtenu le résultat présenté en en-tête de cet article.

Ce post de blog va vous guider pas-à-pas vers ce résultat.
Il se décompose en deux grandes parties, la première pour le travail avec Alteryx et la seconde pour la construction de la visualisation Tableau.

1 – Première étape : Lecture et normalisation des données GPX avec Alteryx
A – la lecture des fichiers .gpx
B – Création des fichiers .shp et des données quantitatives
C – Normalisation des polygones pour la visualisation via Tableau
2 – Lecture et présentation des données avec Tableau

1 – Première étape : Lecture et normalisation des données GPX avec Alteryx
Pas de panique, le workflow en soi, n’est pas très compliqué. Cependant il faut procéder par étapes…

Il répond à deux besoins : D’abord, produire un fichier .shp (shapefile), lisible par Tableau.

Ce fichier shapefile doit contenir les polygones correspondants aux différents parcours de course. Il doit aussi contenir des informations utiles, telle que la vitesse moyenne, la durée du parcours, le dénivelé …
Le problème est que nous souhaitons que ces parcours de courses apparaissent tous dans un même carré de coté 1*1. S’il a parfois couru des marathons ou des parcours de 10 km, soit en rond soit en ligne droite, nous ne souhaitons pas avoir une ligne de 40km qui prendrait toute la place par rapport à des parcours plus équilibrés. De plus, les parcours réalisés au Cap Vert ne doivent pas non plus apparaître plus petits que les parcours réalisés au Canada : les coordonnées (latitude, longitude) doivent donc être d’une certaine façon ‘normalisées’.
Comme on peut le voir dans le cadre en bas à gauche de l’image précédente, nous avons remmené tous les parcours dans un même cadre, peut importe leur forme, les coordonnées du départ et la distance parcourue.

A – la lecture des fichiers .gpx
Le premier outil nous permet de lire l’ensemble des fichiers .gpx, représentant les différents parcours de course.
L’idée est de lire l’ensemble des fichiers contenus dans un même dossier avec le caractère *, et de les lire comme des formats .xml

En écrivant « 20*.gpx » Alteryx va ouvrir une pop-up qui vous proposera un fichier (le premier du dossier, qui servira de modèle pour les suivants), il faudra à nouveau spécifier que le format de lecture est le .xml.

Dans notre cas, nous avions deux formats génériques différents. Nous avons donc utilisé deux input files puis fait une union des deux. Nous avons également rajouté une Id à chaque ligne, afin de pouvoir reproduire l’ordre original de lecture.

A partir de là, nous avons créé un format de date à partir du champs ‘time’ qui était une chaîne de caractère

Puis changé le type des différentes mesures afin de pouvoir utiliser des calculs.

 

 

B – Création des fichiers .shp et des données quantitatives

Distance Nous utilisons d’abord les outils spatiaux afin de créer des polygones (lignes) pour obtenir les distances parcourues via les fonctionnalités d’Alteryx.
Nous utilisons les latitudes et longitudes de la source d’origine pour cela.

 

Simplement pour obtenir la distance (en km ou en miles).

Nous utilisons le Multi-Row formula pour calculer le dénivelé positif et une formule classique pour calculer la durée du parcours.

Dénivelé Le dénivelé est simplement obtenu avec la formule suivante. Si le dénivelé de la ligne est supérieur à celui de la ligne précédente, alors, on prend la différence des deux comme dénivelé positif. Sinon, il s’agit d’un dénivelé négatif.

Puis, via un Summarize, on somme le dénivelé positif de chaque parcours

Durée On peut profiter de ce même summarize pour calculer la date de début de la course et la date de fin

Qui nous permettrons de calculer la durée du parcours.

Nous utiliserons également la date min pour conserver le jour de la course.
Nous rassemblons ces informations à l’aide d’une jointure sur l’ID du parcours.

Pour chaque parcours, nous conservons finalement le nom du parcours, la date, la durée, la distance et le dénivelé.

 

 

C’est tout pour aujourd’hui ! La suite du processus est dans l’article suivant:

1 – Première étape : Lecture et normalisation des données GPX avec Alteryx
A – la lecture des fichiers .gpx
B – Création des fichiers .shp et des données quantitatives
C – Normalisation des polygones pour la visualisation via Tableau
2 – Lecture et présentation des données avec Tableau

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *