Donnees

Vos donnees sont-elles pretes pour l'IA ?

Majed Khalfallah · ·
donneesdataqualite

Le mythe des donnees parfaites

“On va d’abord nettoyer nos donnees, et apres on fera de l’IA.” J’ai entendu cette phrase des dizaines de fois. Et chaque fois, le projet IA est reporte de 6 mois, puis d’un an, puis oublie.

La verite : les donnees parfaites n’existent pas. Meme les GAFAM travaillent avec des donnees imparfaites. La question n’est pas “nos donnees sont-elles propres ?” mais “nos donnees sont-elles suffisantes pour commencer ?”

L’etat des donnees dans les entreprises tunisiennes

Apres plus de 20 ans de DSI dans des grandes structures tunisiennes, je peux dresser un constat general :

Ce qui est courant

  • Donnees dispersees : un peu dans le CRM, un peu dans Excel, un peu dans les emails, un peu dans la tete du commercial
  • Pas de referentiel unique : le meme client a 3 noms differents dans 3 systemes
  • Historique incomplet : les donnees structurees commencent en 2018, mais le business existe depuis 2005
  • Formats heterogenes : PDF, Excel, Word, parfois du papier scanne

Ce qui est moins grave qu’on le croit

  • Avoir des trous dans les donnees historiques
  • Ne pas avoir de data warehouse centralise
  • Utiliser Excel pour certains processus
  • Ne pas avoir de data scientist dans l’equipe

Les 4 questions a se poser

1. Ou sont vos donnees ?

Faites l’inventaire. Pas un audit IT de 3 mois — un inventaire simple :

Type de donneesOu ?FormatVolume
ClientsCRM + ExcelStructure5 000 fiches
FacturesLogiciel comptaPDF + BDD3 ans
Emails clientsOutlookNon structure50 000
ReclamationsExcelSemi-structure2 ans

Cet exercice prend une demi-journee, pas 3 mois.

2. Vos donnees sont-elles accessibles ?

Accessibles = quelqu’un peut les extraire sans appeler le DSI. Si chaque export necessite un ticket IT et 2 semaines d’attente, vous avez un probleme d’accessibilite, pas de qualite.

3. Vos donnees sont-elles coherentes ?

Un meme client doit s’appeler pareil partout. Un meme produit doit avoir le meme code. Si ce n’est pas le cas, ce n’est pas un probleme bloquant pour l’IA — mais c’est la premiere chose a corriger.

4. Avez-vous assez de donnees ?

Pour un modele de classification simple (trier des emails par categorie), quelques centaines d’exemples suffisent. Pour de la prediction avancee (quel client va partir), il faut des milliers de transactions sur plusieurs annees.

La bonne nouvelle : les outils d’IA generative (comme ChatGPT) fonctionnent avec vos donnees telles qu’elles sont. Pas besoin de datasets massifs pour commencer.

Ce que l’IA peut faire avec des donnees imparfaites

Cas 1 : Donnees non structurees

Vous avez 10 000 emails clients non classes. L’IA peut les analyser, les categoriser, en extraire les themes recurrents. Pas besoin de les nettoyer d’abord — l’IA travaille sur le texte brut.

Cas 2 : Donnees dispersees

Vous avez des informations clients dans 3 systemes differents. Avant de fusionner les bases (projet de 6 mois), l’IA peut deja travailler sur chaque source separement et vous donner des insights utiles.

Cas 3 : Peu de donnees

Vous n’avez que 200 factures. C’est peu pour un modele sur mesure, mais c’est largement suffisant pour un outil d’extraction automatique (OCR + IA) qui lit et classe vos factures.

La vraie priorite : commencer a collecter

Si vos donnees sont insuffisantes aujourd’hui, la priorite n’est pas de nettoyer le passe — c’est de structurer la collecte future.

Concretement :

  • Definir un format standard pour les nouvelles saisies
  • Centraliser progressivement (pas tout d’un coup)
  • Logger les interactions clients de maniere structuree
  • Documenter les processus pour savoir quelles donnees sont generees a chaque etape

Chaque mois de collecte structuree rend vos futurs projets IA plus performants.

Diagnostic donnees

Notre diagnostic de maturite IA inclut une dimension “Donnees” qui evalue ou vous en etes. C’est un point de depart — pas un audit technique, mais une evaluation strategique de votre data readiness.


Majed Khalfallah est ingenieur ENIT, ancien DSI de SONEDE, Tunisie Telecom et SOTETEL. Senior ICT Standardisation Expert aupres de la Commission Europeenne.

Ou en etes-vous avec l'IA ?

Faites notre diagnostic gratuit en 3 minutes et decouvrez vos axes de progression.

Lancer le diagnostic