Open Data en France : comment exploiter les fichiers CSV publics
Open Data en France : comment exploiter les fichiers CSV publics
Meta-description : Des milliers de jeux de donnees CSV sont disponibles gratuitement en France. Decouvrez ou les trouver, comment les ouvrir et quoi en faire concretement.
La France est l'un des pays les plus avances au monde en matiere d'Open Data. Des milliers de fichiers CSV sont publies chaque semaine par les administrations, les collectivites et les entreprises publiques. Et la plupart des gens ne savent meme pas qu'ils existent.
Ou trouver des donnees CSV publiques
data.gouv.fr — Le portail national
Le site officiel de l'Open Data en France. Plus de 45 000 jeux de donnees disponibles gratuitement.
Les pepites :
- Base SIRENE : toutes les entreprises francaises (nom, adresse, activite, effectifs)
- Demandes de valeurs foncieres (DVF) : tous les prix de vente immobiliere
- Base adresse nationale : toutes les adresses de France
- Donnees de sante publique : statistiques hospitalieres, vaccination, epidemies
- Resultats electoraux : tous les scrutins depuis 2002
Autres sources incontournables
- INSEE : Statistiques economiques et demographiques
- data.europa.eu : Donnees de l'Union europeenne
- Portails locaux : Chaque grande ville a son portail (Paris, Lyon, Marseille, Nantes...)
- transport.data.gouv.fr : Horaires de transports en commun
- meteo.data.gouv.fr : Donnees meteorologiques historiques
Comment ouvrir ces fichiers
Les fichiers Open Data sont souvent volumineux et parfois mal documentes. Avant de plonger dans l'analyse, quelques reflexes :
1. Verifier la structure
Chargez le fichier dans un viewer CSV en ligne pour voir rapidement les colonnes, le nombre de lignes et la qualite des donnees.
2. Verifier l'encodage
Les fichiers publics francais utilisent generalement l'UTF-8, mais certains anciens jeux de donnees sont en Latin-1. Si les accents sont casses, changez l'encodage.
3. Identifier le separateur
La majorite des fichiers sur data.gouv.fr utilisent le point-virgule (;), pas la virgule. Pensez-y en important dans Excel ou Google Sheets.
4. Lire la documentation
Chaque jeu de donnees devrait avoir une fiche descriptive expliquant les colonnes. Lisez-la. Un champ "code_commune" n'est pas un code postal.
5 idees concretes pour exploiter l'Open Data
1. Etude de marche gratuite
La base SIRENE vous donne la liste de toutes les entreprises par secteur et par zone geographique. Combien de boulangeries dans votre ville ? Combien de startups dans votre secteur ? C'est gratuit et a jour.
python
import pandas as pd
sirene = pd.read_csv('sirene.csv', sep=';', dtype=str)
boulangeries_75 = sirene[
(sirene['activitePrincipaleEtablissement'] == '10.71C') &
(sirene['codeCommuneEtablissement'].str.startswith('75'))
]
print(f"Boulangeries a Paris : {len(boulangeries_75)}")
2. Prix immobiliers
Les Demandes de Valeurs Foncieres (DVF) contiennent toutes les ventes immobilieres. Vous pouvez analyser les prix au m2 par quartier, detecter les tendances, comparer des villes.
3. Statistiques pour un article ou un rapport
Journalistes, etudiants, consultants : l'Open Data est une mine d'or pour sourcer vos chiffres avec des donnees officielles.
4. Alimentation d'une application
Beaucoup de startups utilisent l'Open Data comme source de donnees. Adresses, horaires de transport, meteo, qualite de l'air — tout est gratuit et reutilisable.
5. Projets data science et portfolio
Si vous apprenez Python ou la data science, l'Open Data offre des jeux de donnees reels, complexes et gratuits. Parfait pour construire un portfolio.
Les difficultes courantes
Fichiers trop volumineux
La base SIRENE complete fait plusieurs Go. Excel ne pourra pas l'ouvrir. Utilisez Python, DuckDB, ou un viewer en ligne pour explorer d'abord un echantillon.
Qualite variable
Les donnees publiques ne sont pas toujours propres. Attendez-vous a des valeurs manquantes, des formats incoherents et des colonnes mal nommees. Le nettoyage fait partie du jeu.
Mises a jour irregulières
Certains jeux de donnees sont mis a jour mensuellement, d'autres... quand quelqu'un y pense. Verifiez toujours la date de derniere mise a jour.
Licences
La plupart des donnees publiques sont sous Licence Ouverte (equivalent Creative Commons). Mais certains jeux de donnees ont des restrictions. Verifiez avant de reutiliser commercialement.
Outils recommandes
| Besoin | Outil |
|--------|-------|
| Apercu rapide | CSV Viewer Online |
| Analyse legere | Google Sheets |
| Analyse poussee | Python + Pandas |
| Fichiers enormes | DuckDB ou Polars |
| Visualisation | Tableau Public (gratuit) ou Datawrapper |
| Exploration sans code | Quadratic ou Rows |
Le futur de l'Open Data en France
Avec le Data Governance Act europeen et la montee en puissance de l'IA, l'Open Data prend une nouvelle dimension en 2026 :
- IA + Open Data : Les LLM peuvent maintenant analyser des fichiers CSV publics en langage naturel, rendant l'Open Data accessible a tous
- Temps reel : De plus en plus de jeux de donnees passent en temps reel (transport, qualite de l'air)
- APIs : Beaucoup de portails offrent maintenant des APIs en plus des fichiers CSV telechargeables
- Data spaces europeens : L'UE pousse pour des espaces de donnees partages entre pays membres
L'Open Data est une ressource sous-exploitee. Des milliers de fichiers CSV attendent d'etre explores. Commencez par un sujet qui vous interesse, telechargez le fichier, ouvrez-le dans un viewer, et laissez-vous guider par la curiosite.