Le mythe des donnees parfaites
“On va d’abord nettoyer nos donnees, et apres on fera de l’IA.” J’ai entendu cette phrase des dizaines de fois. Et chaque fois, le projet IA est reporte de 6 mois, puis d’un an, puis oublie.
La verite : les donnees parfaites n’existent pas. Meme les GAFAM travaillent avec des donnees imparfaites. La question n’est pas “nos donnees sont-elles propres ?” mais “nos donnees sont-elles suffisantes pour commencer ?”
L’etat des donnees dans les entreprises tunisiennes
Apres plus de 20 ans de DSI dans des grandes structures tunisiennes, je peux dresser un constat general :
Ce qui est courant
- Donnees dispersees : un peu dans le CRM, un peu dans Excel, un peu dans les emails, un peu dans la tete du commercial
- Pas de referentiel unique : le meme client a 3 noms differents dans 3 systemes
- Historique incomplet : les donnees structurees commencent en 2018, mais le business existe depuis 2005
- Formats heterogenes : PDF, Excel, Word, parfois du papier scanne
Ce qui est moins grave qu’on le croit
- Avoir des trous dans les donnees historiques
- Ne pas avoir de data warehouse centralise
- Utiliser Excel pour certains processus
- Ne pas avoir de data scientist dans l’equipe
Les 4 questions a se poser
1. Ou sont vos donnees ?
Faites l’inventaire. Pas un audit IT de 3 mois — un inventaire simple :
| Type de donnees | Ou ? | Format | Volume |
|---|---|---|---|
| Clients | CRM + Excel | Structure | 5 000 fiches |
| Factures | Logiciel compta | PDF + BDD | 3 ans |
| Emails clients | Outlook | Non structure | 50 000 |
| Reclamations | Excel | Semi-structure | 2 ans |
Cet exercice prend une demi-journee, pas 3 mois.
2. Vos donnees sont-elles accessibles ?
Accessibles = quelqu’un peut les extraire sans appeler le DSI. Si chaque export necessite un ticket IT et 2 semaines d’attente, vous avez un probleme d’accessibilite, pas de qualite.
3. Vos donnees sont-elles coherentes ?
Un meme client doit s’appeler pareil partout. Un meme produit doit avoir le meme code. Si ce n’est pas le cas, ce n’est pas un probleme bloquant pour l’IA — mais c’est la premiere chose a corriger.
4. Avez-vous assez de donnees ?
Pour un modele de classification simple (trier des emails par categorie), quelques centaines d’exemples suffisent. Pour de la prediction avancee (quel client va partir), il faut des milliers de transactions sur plusieurs annees.
La bonne nouvelle : les outils d’IA generative (comme ChatGPT) fonctionnent avec vos donnees telles qu’elles sont. Pas besoin de datasets massifs pour commencer.
Ce que l’IA peut faire avec des donnees imparfaites
Cas 1 : Donnees non structurees
Vous avez 10 000 emails clients non classes. L’IA peut les analyser, les categoriser, en extraire les themes recurrents. Pas besoin de les nettoyer d’abord — l’IA travaille sur le texte brut.
Cas 2 : Donnees dispersees
Vous avez des informations clients dans 3 systemes differents. Avant de fusionner les bases (projet de 6 mois), l’IA peut deja travailler sur chaque source separement et vous donner des insights utiles.
Cas 3 : Peu de donnees
Vous n’avez que 200 factures. C’est peu pour un modele sur mesure, mais c’est largement suffisant pour un outil d’extraction automatique (OCR + IA) qui lit et classe vos factures.
La vraie priorite : commencer a collecter
Si vos donnees sont insuffisantes aujourd’hui, la priorite n’est pas de nettoyer le passe — c’est de structurer la collecte future.
Concretement :
- Definir un format standard pour les nouvelles saisies
- Centraliser progressivement (pas tout d’un coup)
- Logger les interactions clients de maniere structuree
- Documenter les processus pour savoir quelles donnees sont generees a chaque etape
Chaque mois de collecte structuree rend vos futurs projets IA plus performants.
Diagnostic donnees
Notre diagnostic de maturite IA inclut une dimension “Donnees” qui evalue ou vous en etes. C’est un point de depart — pas un audit technique, mais une evaluation strategique de votre data readiness.
Majed Khalfallah est ingenieur ENIT, ancien DSI de SONEDE, Tunisie Telecom et SOTETEL. Senior ICT Standardisation Expert aupres de la Commission Europeenne.