<< Back

Pourquoi mes données se dupliquent-elles dans Tableau ?

Dans cet article, nous allons répondre à la question pourquoi mes données se dupliquent-elles dans Tableau ?

Réponse courte : il y a probablement un problème de jointure.

Dans l’univers de la Business Intelligence, les analyses utilisant plusieurs jeux de données différents sont monnaie courante. Un ou plusieurs champs dans une première source de données font ainsi référence à un ou plusieurs champs dans une seconde source de données.


Tableau Desktop propose deux approches pour opérer cette correspondance entre sources de données multiples : la jointure ou la fusion.


Dans cet article, je vais détailler pour chaque méthode, son fonctionnement, ses avantages et limites à l’aide d’exemples concrets, détaillant pas à pas comment les mettre en place.

Jointure

Comment fonctionne la jointure?

Sur Tableau, la jointure fonctionne de la même manière que sur SQL. Deux sources de données sont choisies.
On définit ensuite le ou les champs en commun entre les différentes sources de données, puis le type de jointure : gauche, centrale ou droite. Tableau crée donc une table commune aux deux sources de donnés différentes; suite à une vérification lignes à lignes de la correspondance. 
Puis, lors d’un calcul faisant appel à différentes bases, Tableau utilisera cette table commune pour réaliser l’agrégation. 

Jointure

Avantages

La jointure est très intuitive à mettre en place. Grâce à son fonctionnement similaire à l’univers SQL, elle est très facile à appréhender pour un utilisateur à l’aise avec ces technologies. 
La jointure permet à l’utilisateur de choisir le type de jointure désiré. Elle ajoute une grande flexibilité à l’analyste lors de la manipulation des données.
Il est très facile de joindre des données provenant de différentes bases de données grâce aux multiples connecteurs présents dans Tableau Desktop.

Limitations

  • Cependant, la jointure ne fonctionne pas aussi facilement lorsque les données des deux tables ne sont pas au même niveau de détails. Une granularité différente entre les deux bases de données liées décupleraient artificiellement la taille de l’ensemble de données, affichant donc des résultats erronés. Une solution dans ce cas serait d’utiliser une fusion de données.
    L’exemple ci-dessous montre comment intervient la duplication de données. Dans cet exemple, les objectifs de ventes sont dupliqués.
Limitations
Exemple de duplication de données avec une jointure
  • Par ailleurs, certaines bases de données ne peuvent pas être jointes avec une autre base. C’est le cas pour les données provenant de cube de données comme Microsoft Analysis Services; également pour la majorité des données qui doivent être extraites : Google Analytics. Dans ce cas, il faut créer un extrait des données désirées ou opérer une fusion de données
  • De part son fonctionnement lignes à lignes, la jointure peut-être très consommatrice de performance avec une très grande source de données. Le risque est ici, un ralentissement du chargement de votre dashboard.
    Enfin, pour en savoir plus sur les jointures, je vous recommande de lire l’explication complète de Tableau.

À lire aussi : Tableau Prep : La préparation de données ultra-visuelle

Fusion de données (Blending)

Comment fonctionne la fusion de données

A l’inverse de la jointure, la force de la fusion de données réside dans sa capacité à garder plusieurs sources de données distinctes les unes des autres. Ainsi, seule l’information affichée à l’écran reprend les données des différentes sources, tout en traitant ces sources distinctement.

Lorsqu’une requête est émise pour un calcul, elle est envoyée à la base de données, pour chaque source de données. Le résultat de cette requête est une donnée agrégée pour chaque source de données et ensuite présentée conjointement dans la feuille. 

Lorsque vous paramétrez une fusion, vous choisissez une source de données principale et une ou plusieurs sources de données secondaires. Tableau utilisera toutes les données de la source principale ainsi que les données correspondantes de la source secondaire pour l’affichage de votre visualisation.

Fusion de données
Réaliser une fusion avec Tableau Desktop

Avantages

La fusion de données fonctionne feuille par feuille. A la différence de la jointure qui s’applique à l’ensemble d’un classeur, la fusion se définit manuellement pour chaque feuille de calcul.

De ce fait, si les données de la source secondaire ne sont utilisées que dans un nombre réduit de feuilles, la fusion présente l’avantage d’avoir un impact réduit sur les performances du classeur. Tableau n’opère la fusion que lorsqu’elle lui a été manuellement spécifiée, pour les calculs nécessaires.

La fusion permet de travailler avec des sources de données à différents niveaux de détails, évitant ainsi la duplication des données lors d’une jointure dans cette situation.

Limitations

Enfin, il est important de garder certaines limitations en mémoire lors de l’utilisation d’une fusion :

  • Les données de la source secondaire doivent être agrégées pour être utilisées dans les champs calculés. 
  • Si les données doivent être publiées, elles doivent être publiées séparément; puis fusionnées post-publication si besoin.
  • Certains calculs comme COUNTD ou MEDIAN ne sont pas disponibles sur les champs de la source secondaire.
  • Si on utilise une base de données multidimensionnelle, celle-ci doit obligatoirement être la source de données principale.
  • La relation entre les données ne peut être qu’une jointure gauche; reprenant toutes les données de la source principale avec celles correspondantes dans la source secondaire. Ainsi, il est primordial, si possible, de bien choisir la source principale afin d’obtenir la totalité des données désirées pour les calculs. La source principale correspond à celle utilisée par la première dimension ou mesure déposée dans la feuille.

Enfin, pour en savoir plus sur les fusions, je vous incite à lire l’explication complète de Tableau, en anglais.

Pour aller plus loin, il est intéressant de savoir qu’avec la fusion, la correspondance entre les données intervient avant l’agrégation des mesures lors d’un calcul. En revanche, lors de la fusion, l’agrégation intervient avant la correspondance entre les différentes sources de données. De ce fait un volume de données très important sera traité de façon plus efficace par une fusion que par une jointure, du fait de l’ordre dans lequel Tableau traite l’agrégation et la correspondance.

Pour mieux comprendre ce dernier concept, je vous recommande de lire cet article sur l’ordre des opérations ou notre article de blog sur la préparation de données avec Tableau Prep.

J’espère avoir pu répondre grâce à cet article à vos interrogations concernant la jointure et la fusion de données sur Tableau Desktop.

Comme d’habitude n’hésitez pas laisser vos questions, commentaires ou à partager vos astuces !

Pour en apprendre davantage sur le sujet, je vous recommande de participer aux formations découvertes de Tableau par The Information Lab.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *