Le mythe des données parfaites pour l’intelligence artificielle
“On va d’abord nettoyer nos données, et après on fera de l’IA.” J’ai entendu cette phrase des dizaines de fois. Et chaque fois, le projet IA est reporté de 6 mois, puis d’un an, puis oublié. C’est l’une des 5 erreurs classiques des dirigeants.
La vérité : les données parfaites n’existent pas. Même les GAFAM travaillent avec des données imparfaites. La question n’est pas “nos données sont-elles propres ?” mais “nos données sont-elles suffisantes pour commencer ?”
L’état des données dans les entreprises tunisiennes
Après plus de 20 ans de DSI dans des grandes structures tunisiennes, je peux dresser un constat général :
Ce qui est courant dans les données d’entreprise
- Données dispersées : un peu dans le CRM, un peu dans Excel, un peu dans les emails, un peu dans la tête du commercial
- Pas de référentiel unique : le même client a 3 noms différents dans 3 systèmes
- Historique incomplet : les données structurées commencent en 2018, mais le business existe depuis 2005
- Formats hétérogènes : PDF, Excel, Word, parfois du papier scanné
Ce qui est moins grave qu’on le croit pour démarrer l’IA
- Avoir des trous dans les données historiques
- Ne pas avoir de data warehouse centralisé
- Utiliser Excel pour certains processus
- Ne pas avoir de data scientist dans l’équipe
Les 4 questions à se poser sur la qualité de vos données
1. Où sont vos données d’entreprise ?
Faites l’inventaire. Pas un audit IT de 3 mois — un inventaire simple :
| Type de données | Où ? | Format | Volume |
|---|---|---|---|
| Clients | CRM + Excel | Structuré | 5 000 fiches |
| Factures | Logiciel compta | PDF + BDD | 3 ans |
| Emails clients | Outlook | Non structuré | 50 000 |
| Réclamations | Excel | Semi-structuré | 2 ans |
Cet exercice prend une demi-journée, pas 3 mois.
2. Vos données sont-elles accessibles pour l’IA ?
Accessibles = quelqu’un peut les extraire sans appeler le DSI. Si chaque export nécessite un ticket IT et 2 semaines d’attente, vous avez un problème d’accessibilité, pas de qualité.
3. Vos données sont-elles cohérentes entre les systèmes ?
Un même client doit s’appeler pareil partout. Un même produit doit avoir le même code. Si ce n’est pas le cas, ce n’est pas un problème bloquant pour l’IA — mais c’est la première chose à corriger.
4. Avez-vous assez de données pour l’IA ?
Pour un modèle de classification simple (trier des emails par catégorie), quelques centaines d’exemples suffisent. Pour de la prédiction avancée (quel client va partir), il faut des milliers de transactions sur plusieurs années.
La bonne nouvelle : les outils d’IA générative fonctionnent avec vos données telles qu’elles sont. Pas besoin de datasets massifs pour commencer.
Ce que l’IA peut faire avec des données imparfaites
Cas 1 : Données non structurées et IA
Vous avez 10 000 emails clients non classés. L’IA peut les analyser, les catégoriser, en extraire les thèmes récurrents. Pas besoin de les nettoyer d’abord — l’IA travaille sur le texte brut. C’est la différence fondamentale avec l’automatisation classique.
Cas 2 : Données dispersées et IA
Vous avez des informations clients dans 3 systèmes différents. Avant de fusionner les bases (projet de 6 mois), l’IA peut déjà travailler sur chaque source séparément et vous donner des insights utiles.
Cas 3 : Peu de données et IA
Vous n’avez que 200 factures. C’est peu pour un modèle sur mesure, mais c’est largement suffisant pour un outil d’extraction automatique (OCR + IA) qui lit et classe vos factures.
La vraie priorité : commencer à collecter les bonnes données
Si vos données sont insuffisantes aujourd’hui, la priorité n’est pas de nettoyer le passé — c’est de structurer la collecte future :
- Définir un format standard pour les nouvelles saisies
- Centraliser progressivement (pas tout d’un coup)
- Logger les interactions clients de manière structurée
- Documenter les processus pour savoir quelles données sont générées à chaque étape
Chaque mois de collecte structurée rend vos futurs projets IA plus performants. C’est un point que Majed Khalfallah souligne dans chaque intervention.
Diagnostic de la qualité de vos données pour l’IA
Notre diagnostic de maturité IA inclut une dimension “Qualité et accessibilité des données” qui évalue où vous en êtes. C’est un point de départ — pas un audit technique, mais une évaluation stratégique de votre data readiness.
Pour comprendre la protection de vos données lorsque vous utilisez des outils IA, consultez également notre FAQ dédiée.
Majed Khalfallah est ingénieur ENIT, ancien DSI de grandes structures publiques tunisiennes. Senior ICT Standardisation Expert auprès de la Commission Européenne.