Concours de Visualisation de Données 2025 - Documentation et jeux de données

 

Introduction

 

Le concours de visualisation de données 2025 organisé par DataGrandEst a pour thème central : la biodiversité.

Les données mises à disposition proviennent d’observations naturalistes concernant la flore, la faune et les habitats naturels.
Chaque observation repose sur quatre éléments clés :

  • Quoi : quelle espèce a été observée ?
  • : à quel endroit ?
  • Quand : à quel moment ?
  • Qui : qui a réalisé l’observation ?

 

Origine des données

Ces données, collectées depuis avant 1900, sont le fruit du travail d’une grande diversité d’acteurs : associations naturalistes, services de l’État, bureaux d’études, fédérations, établissements de recherche, ainsi que des particuliers passionnés par la nature.

Elles ont été progressivement standardisées et intégrées dans les bases de données du Système d’Information de l’Inventaire du Patrimoine Naturel (SINP), accessibles à plusieurs échelles :

Grâce au principe de l’open data, ces données sont librement accessibles à tous.

 

Objectifs du concours

En participant, vous aurez l’opportunité de :

  • découvrir l’univers des données naturalistes,
  • prendre conscience de leur importance pour la préservation de la biodiversité,
  • mettre en valeur la richesse écologique de la région Grand Est.

Nous vous souhaitons un excellent travail et une belle aventure créative à tous les participants !

 

Support et échanges

Pendant toute la durée du concours, un salon Discord est ouvert pour :

  • répondre à vos questions,
  • favoriser les échanges entre participants.

Rejoignez-nous dès maintenant : Lien d’accès au salon .

 

  • Les données renseignent autant sur la présence de l’observé que de l’observateur à cet endroit et à cette heure. Il y a donc un important biais lié à la répartition (géographique et temporelle) des observateurs et les données opportunistes ne permettent généralement pas de révéler des tendances de population (à la hausse ou à la baisse).
  • Une absence de données ne signifie pas l’absence de l’espèce !
  • Les études spécifiques créent paradoxalement des biais car elles génèrent des surplus de données inhabituelles à un endroit spécifique ou sur une espèce donnée.
  • Enfin, des périodes comme le Covid viennent perturber le rythme d’observation.

 

Les Données

 

Les données sont téléchargéables sur deux serveurs différents :

 

Nul besoin d’être un naturaliste accompli, nous nous limiterons aux feuilles terminales de l’arbre du vivant :

Arbre du vivant - Illustration des feuilles terminales

Source : Wikipedia

 

Nous avons sélectionné un tout petit échantillon de ces observations de la biodiversité en région Grand-Est :

 

Les espèces sélectionnées sont celles retenues par la fiche de comptage de l’Observatoire des oiseaux des jardins. Elles représentent les 20 espèces a priori les plus communes des jardins. A cela s’ajoute 32 espèces supplémentaires fréquentes dans les jardins mais moins abondantes ou moins faciles à identifier.

Arbre du vivant - Illustration des feuilles terminales

Source : 52 espèces issues de la fiche de comptage de l’Observatoire

  • L'agriculture
    Certaines espèces messicoles, associées aux cultures céréalières, ont été sélectionnées. Parmi elles, certaines ont disparu des champs cultivés en agriculture intensive.
  • Les milieux humides
    Des plantes qui prospèrent dans les marais, fagnes et tourbières : les zones humides qui hébergent une grande biodiversité (faune et flore) : Zone humide
  • Les milieux sub-montagnardes
    Quelques espèces de plantes occupant la zone 500 et 1000 mètres d’altitude, très sensibles à la température et l’ensoleillement.

Les fichiers contiennent les colonnes suivantes :

Identifiant Exemple Description
etiquette papillon, oiseau, humides, montagnardes, agricole Étiquette pour faciliter le regroupement et l’affichage des données
nomScientifiqueRef Vanessa atalanta Nom unique de convention internationale. Généralement en latin
nomVernaculaire Citron (Le), Limon (Le), Piéride du Nerprun (La) Le(s) nom(s) usuel(s) utilisé(s) par le grand public
cdNom 53262 L’identifiant du nom de l’espèce
espece Sitta europaea Unité de base de classification du vivant. Les individus de la même espèce sont capables de reproduction
genre Vanessa Regroupement de plusieurs espèces ayant des caractéristiques communes
famille Nymphalidae Regroupement de plusieurs genres ayant une proximité dans l’arbre du vivant
especeDirectiveEuropeenne false Concernée par la directive 92/43/CEE pour la protection des habitats naturels
especeEvalueeLR true Espèce Liste Rouge, c’est-à-dire hiérarchisée en criticité
especeReglementee false Espèce soumise à une réglementation particulière (nuisibles, espèces exotiques envahissantes, ...)
dateObservation 16/08/2021 La date de l’observation
commune Creney-près-Troyes Le nom de la commune
codeInseeCommune 10115 Le code Insee unique de la commune d’observation
departement Meuse Le département de l’observation
latitude 48,6569 Latitude GPS
longitude 7,90406 Longitude GPS
obsID 52 Identifiant de l’observateur. 0 est l’observateur anonyme. Attention, chaque fichier a des identifiants différents
idSINPOccTax ou gbifID (pour les plantes) 0000f3d7-358a-43fa-b889-975fc89a63d6 Identifiant unique permettant la traçabilité de l’observation (inutile pour le concours mais outil précieux pour les naturalistes)

 

En résumé, les données sont partagées en 3 fichiers au format CSV ou XLSX :

Jeux de données Nom du fichier Format Taille
Oiseaux oiseaux.csv CSV 106 Mo
oiseaux.xlsx Excel 71 Mo
Papillons papillons.csv CSV 3,2 Mo
papillons.xlsx Excel 1,6 Mo
Plantes plantes.csv CSV 379 Ko
plantes.xlsx Excel 233 Ko

Pour faciliter la présentation et l’analyse des données, une table des communes de la région Grand Est est mise à disposition. Elle inclut pour chaque commune :

Identifiant Exemple Description
codeInsee 55262 Code Insee unique de la commune
departement Ardennes Nom du département
commune Aiglemont Nom de la commune
latCentroide 48,3 Latitude GPS du centre visuel de la commune
lonCentroide 5,3 Longitude GPS du centre visuel de la commune
population2025 53023 Population de la commune au 01/01/2025
annee 2010, 2019 ou 2021 Les surfaces varient légèrement par année
urbain 80 Surface des emprises urbaines (ha)
agricole 940 Surface des emprises agricoles (ha)
naturel 58 Surface des espaces forestiers et semi-naturels (ha)
humide 12 Surface des milieux naturels liés à l’eau (ha)
eau 53 Surface en eau (ha)
surfaceTotale 159 Surface totale de la commune (ha). La surface semble évoluer car obtenue par addition des postes. Problème d’arrondi.

Ces mêmes informations sont complétées par les contours simplifiés de chaque commune, département et région. Les fichiers suivants sont disponibles pour exploitation :

Données en tables :

  • communes.csv
  • communes.xlsx

Limites administratives pour cartographie (format GeoJSON) :

  • communes-grand-est.geojson
  • departements-grand-est.geojson
  • region-grand-est.geojson

 

Inscription

  • Les candidats peuvent être des individus ou des équipes. Le nombre de personnes regroupées sous une candidature doit être précisé à l’inscription. Une fois inscrit, le candidat (ou l’équipe) s’engage à déposer sa contribution avant la date de clôture.
  • Les candidats s’engagent à autoriser la publication de leur contribution sur le site DataGrandEst et pour les contributions hébergées pendant un an.
  • Les candidats s’engagent à être présents ou représentés ou à défaut disponibles par vidéo lors de la remise des prix à la Rencontre Régionale de la Donnée, le 27 novembre à Strasbourg.

Données

  • Les participants n’ont pas l’obligation d’utiliser toutes les données.
  • Hormis des fonds de carte, les candidats ne sont pas autorisés à utiliser d’autres données que celles fournies.
  • Les candidats peuvent effectuer tous types de calcul à partir de ce jeu de données.
  • Les candidats peuvent utiliser tous les outils qu’ils souhaitent pour explorer les données du concours et en proposer une représentation visuelle à base de graphiques.

Contributions

  • Les candidats fourniront la liste des outils utilisés pour la réalisation des graphiques.
  • Les candidats déposeront leur contribution avant la date limite selon les modalités qui leur seront communiquées.
  • Le format de restitution d'une analyse visuelle statique sera au format pdf.
  • Dans le cas d’une création interactive ou utilisant des services web, la soumission contiendra l'URL qui ne devra pas dépasser l'équivalent de 2 pages A4 ou l'équivalent de 3 captures d'écran.
  • Les réalisations ne doivent pas utiliser d’images ou logos non libres de droit. Pas de logo de la région par exemple. Seul le logo de DataGrandEst est autorisé.

Evaluation

Les contributions seront jugées par un jury de spécialistes proposé par les organisateurs. Ces personnalités n’ont pas le droit de concourir, ni de collaborer avec aucune des équipes en compétition.

L’examen par le jury s’effectue en anonymisant les réalisations c’est pourquoi il est recommandé de n'y faire figurer aucune signature: nom, équipe, organisation. Une fois le jury réuni, les candidats peuvent faire parvenir aux organisateurs une version signée s’ils le souhaitent qui sera utilisée pour l’exposition sur le site.

Les contributions seront évaluées en fonction de différents critères dont les suivants (liste non exhaustive et non ordonnée par importance).

  • Pertinence pour servir la narration/histoire abordée.
  • Originalité
  • Maîtrise des règles de l’art
  • Concision

Le jury du concours est souverain, ses décisions sont donc définitives. Le jury se réserve le droit de pénaliser les contributions qui ne respecteraient pas les règles. Les résultats seront annoncés lors de la remise des prix.

Lors de la cérémonie

  • Tous les candidats pourront être appelés à présenter et commenter leur réalisation lors de la remise des prix.
  • La cérémonie sera filmée et photographiée.

Conditions générales d’utilisation des données et des visualisations

  • Les jeux de données du concours sont proposés par DataGrandEst dans le cadre du concours afin de promouvoir la visualisation de données. Ce jeu de données est utilisé à des fins pédagogiques en permettant aux participants de créer leurs visualisations.
  • DataGrandEst ne saurait garantir l’exactitude, la complétude et l’actualité des jeux de données sources ni des traitements effectués sur ces données.
  • Les visualisations produites à l’issue de ce concours en temps limité n’engagent pas la responsabilité de DataGrandEst.
  • Les jeux de données sont à l’usage exclusif du concours. Pour toutes autres utilisations, veuillez contacter DataGrandEst.
  • Les données d’observations sur les papillons et les oiseaux ont été extraites de la base Openobs. Elles sont soumises à la licence ouverte etalab 2.0
  • Les données d’observations de plantes ont été extraites de la base de gbif.org. Elles sont soumises à la licence CC0. Plus de détails sur leur site.
  • Pour les raisons du concours, Data Grand Est a réalisé des filtrages et des sélections arbitraires qui ne revendique aucune légitimité scientifique.
  • Les éventuels noms explicites d'observateurs ont été anonymisés.