Ce que nous faisons (et ce que nous devrions faire) pour garantir la qualité des données.
Voici une liste très pratique. Il n’est pas nécessaire d’être technicien pour la comprendre, mais il faut de la discipline pour l’appliquer.
Définir « la signification » de chaque donnée
Un champ n’est pas seulement un endroit où saisir des informations, mais aussi un accord sur la signification de cette donnée. Par exemple, lorsque nous parlons de « date de réception », il est important de préciser à quel moment cela fait référence : à l’entrée physique, à l’enregistrement dans le système ou à sa validation ? Pour éviter toute confusion, il est essentiel de disposer d’un dictionnaire de données simple, vivant et partagé.
Valider au point de saisie
Plus une erreur est détectée et corrigée rapidement, plus il est facile et économique de la corriger. C’est pourquoi il est important de valider les données au moment où elles sont saisies, en utilisant des listes fermées plutôt que du texte libre lorsque cela est nécessaire, en appliquant des règles simples telles que des plages, des formats ou des champs obligatoires, et en affichant des avertissements clairs lorsque des informations manquent ou que quelque chose ne correspond pas.
Traçabilité réelle (historique + qui + pourquoi)
Il ne s’agit pas seulement de stocker des données, mais aussi de pouvoir comprendre ce qui leur est arrivé.
Un système doit permettre de savoir qui a effectué un changement, quand il a été effectué, pour quelle raison et quelle était la valeur de la donnée auparavant. Dans des produits tels qu’AniBio ou NorayBanks, cette traçabilité complète est essentielle pour communiquer les changements, conserver un historique et maintenir les processus critiques sans perdre le contrôle des informations.
Supprimer les doublons de manière judicieuse
Un doublon ne signifie pas toujours que deux enregistrements ont exactement le même nom. Pour les détecter correctement, il est nécessaire de s’appuyer sur des identifiants uniques, d’appliquer des règles de correspondance entre différents champs et de procéder à des vérifications en cas de doute.
Mesurer la qualité comme on mesure n’importe quel KPI
Si la qualité des données n’est pas mesurée, elle peut difficilement s’améliorer. Pour cela, on peut utiliser des indicateurs simples tels que le pourcentage d’enregistrements incomplets, le pourcentage de doublons, le retard moyen dans l’enregistrement ou le classement des erreurs par type, qu’il s’agisse du format, de plage ou du catalogue.
Gouvernance : quelqu’un doit « s’approprier » les données
Il ne s’agit pas d’un propriétaire « légal » des données, mais d’un responsable opérationnel. Autrement dit, quelqu’un qui définit ce qui est considéré comme correct, qui approuve les changements et qui hiérarchise les améliorations nécessaires.
Le côté délicat : la qualité des données relève de la culture, pas seulement des logiciels
Les logiciels sont très utiles, mais ils ne garantissent pas à eux seuls la qualité des données. Celle-ci s’obtient lorsque les données sont traitées comme un actif, que les processus sont conçus en tenant compte de cette qualité et que les problèmes sont corrigés à leur source. Si vous voulez une IA vraiment utile, commencez par les données : seules des informations fiables peuvent devenir un avantage concurrentiel. Avant l’IA, il y a la qualité des données ; et avant la qualité des données, il y a la traçabilité, des règles claires et de la discipline.
Si vous avez manqué la première partie, vous pouvez la lire ici.


