{"id":1374,"date":"2024-01-04T08:16:24","date_gmt":"2024-01-04T07:16:24","guid":{"rendered":"https:\/\/dev.datagrandest.fr\/site\/evenement\/webinaire-diffusion-de-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats\/"},"modified":"2026-03-30T10:17:35","modified_gmt":"2026-03-30T08:17:35","slug":"webinaire-diffusion-de-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats","status":"publish","type":"evenement","link":"https:\/\/www.datagrandest.fr\/site\/evenement\/webinaire-diffusion-de-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats\/","title":{"rendered":"Webinaire &#8211;  Diffusion de bases statistiques : nouvelles interfaces et nouveaux formats"},"template":"","meta":{"_acf_changed":false,"_relevanssi_hide_post":"","_relevanssi_hide_content":"","_relevanssi_pin_for_all":"","_relevanssi_pin_keywords":"","_relevanssi_unpin_keywords":"","_relevanssi_related_keywords":"","_relevanssi_related_include_ids":"","_relevanssi_related_exclude_ids":"","_relevanssi_related_no_append":"","_relevanssi_related_not_related":"","_relevanssi_related_posts":"","_relevanssi_noindex_reason":""},"periode":[212],"source":[],"thematique_globale":[],"type_evenement":[145],"class_list":["post-1374","evenement","type-evenement","status-publish","hentry","periode-212","type_evenement-webinaire"],"acf":{"eve_description_courte":"","eve_description_longue":"<h3 class=\"rtecenter\">Diffusion de bases statistiques : nouvelles interfaces et nouveaux formats<\/h3>\r\n<h3>Date<\/h3>\r\n<span style=\"font-size: 16px;\">Jeudi 7 mars 2024<\/span>\r\n\r\n<span style=\"font-size: 16px;\">De 11h00 \u00e0 12h00<\/span>\r\n<h3>Lieu de l'\u00e9v\u00e8nement<\/h3>\r\n<span style=\"font-size: 16px;\">Cet \u00e9v\u00e9nement se pr\u00e9sentera sous forme de webinaire<\/span>\r\n<h3>Intervenants et sujets<\/h3>\r\nAvec Melodi, qui ouvrira en juin 2024, l'Insee centralise son offre open data dans un \u00ab catalogue \u00bb et pr\u00e9sente de nouveaux services de consultation \/ t\u00e9l\u00e9chargement. Un explorateur de donn\u00e9es permettra de visualiser et filtrer une base de donn\u00e9es avant de l'exporter. Une API param\u00e9trable facilitera l'automatisation de ces t\u00e9l\u00e9chargements. Une version b\u00eata est d'ores et d\u00e9j\u00e0 disponible sur <a href=\"https:\/\/catalogue-donnees.insee.fr\/\">insee.fr<\/a>\r\n\r\nLe responsable \u00e0 l\u2019Insee du projet Melodi, Nicolas Sagnes, vous pr\u00e9sente cette importante innovation en avant-premi\u00e8re !\r\n\r\nCsv, json ou xlsx ne sont plus les seuls formats pour livrer des bases statistiques. Parquet s'impose aujourd'hui comme la meilleure fa\u00e7on de diffuser des bases volumineuses, et m\u00eame de les requ\u00eater \u00e0 distance, sans avoir \u00e0 t\u00e9l\u00e9charger toute la base. \u00c9ric Mauvi\u00e8re, statisticien chez icem7 vous en exposera les m\u00e9rites et comment, avec DuckDB, manipuler des bases parquet en toute simplicit\u00e9.\r\n<ul>\r\n \t<li>Le projet Melodi : la nouvelle offre open data de l'Insee - Nicolas Sagnes - Insee<\/li>\r\n \t<li>Manipuler des bases parquet en toute simplicit\u00e9 - Eric Mauvi\u00e8re - icem7<\/li>\r\n<\/ul>\r\n&nbsp;","eve_lieu":"","eve_date":"20240307","eve_date_fin":"20240307","eve_heure_de_debut":"11:00:00","eve_heure_de_fin":"12:00:00","eve_pour_aller_plus_loin":"<u>A noter\u00a0<\/u>: les pr\u00e9sentations ci-dessous sont diffus\u00e9es \u00e0 partir de la cha\u00eene\u00a0<strong>YouTube DataGrandEst.<\/strong>\u00a0Si vous rencontrez des difficult\u00e9s pour les visionner, nous vous invitons \u00e0 utiliser les liens mentionn\u00e9s dans la rubrique \"Document (lien) plus bas sur cette page\"\r\n\r\n&nbsp;\r\n<h3>Regarder le webinaire complet<\/h3>\r\n<div class=\"row\">\r\n<div class=\"col-sm-6 col-md-6\">\r\n<div class=\"thumbnail\">\r\n<div class=\"caption\">\r\n<p class=\"rtecenter\"><a href=\"https:\/\/www.youtube.com\/embed\/akoPbJUic28\" target=\"_blank\" rel=\"noopener\">T\u00e9l\u00e9charger la vid\u00e9o<\/a><\/p>\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<h3>Ou choisir une vid\u00e9o selon l'intervention<\/h3>\r\n<h4><strong>Le projet Melodi : la nouvelle offre open data de l'Insee<\/strong>\r\n<em>Nicolas Sagnes - Insee<\/em><\/h4>\r\n<div class=\"row\">\r\n<div class=\"col-sm-6 col-md-6\">\r\n<div class=\"thumbnail\">\r\n<div class=\"caption\">\r\n<p class=\"rtecenter\"><a href=\"https:\/\/www.youtube.com\/embed\/abcSKKLub1M\" target=\"_blank\" rel=\"noopener\">T\u00e9l\u00e9charger la vid\u00e9o<\/a><\/p>\r\n\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingOne\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>Une liste de mots cl\u00e9s est-elle disponible pour faciliter la recherche de lots de donn\u00e9es ? Par exemple \u201cage\u201d est diff\u00e9rent de \u201c\u00e2ge\u201d)<\/h4>\r\n<\/div>\r\n<div id=\"collapse-motcle\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingOne\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\nL\u2019algorithme du moteur de recherche pourra \u00eatre am\u00e9lior\u00e9 dans ce sens.\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>Il n'y a pas de filtre sur la p\u00e9riode temporelle ?<\/h4>\r\n<\/div>\r\n<div id=\"collapse-filtre\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\nIl y a une facette sur le mill\u00e9sime dans le catalogue\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>Des sorties en format 'cartographique' (shp., gpkg., etc.) sont-elles pr\u00e9vues ?<\/h4>\r\n<\/div>\r\n<div id=\"collapse-format\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\nPas pour l\u2019instant !\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>A terme est-il pr\u00e9vu des URL stables permettant de t\u00e9l\u00e9charger plus facilement les derniers mill\u00e9simes des jeux de donn\u00e9es dans nos outils python ?<\/h4>\r\n<\/div>\r\n<div id=\"collapse-URL\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\nUn jeu de donn\u00e9es chronologiques aura une url fixe. Un jeu de donn\u00e9es mill\u00e9sim\u00e9 aura une url variable, qui pourra d\u00e9pendre de l\u2019ann\u00e9e mais dans un format lisible du type nom du dataset \/ mill\u00e9sime.\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>Les fichiers d\u00e9tails seront-ils aussi int\u00e9gr\u00e9s \u00e0 MELODI ? (Filtre g\u00e9ographique avant export serait tr\u00e8s utile)<\/h4>\r\n<\/div>\r\n<div id=\"collapse-fichier\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\nLes fichiers d\u00e9tail seront bien dans le catalogue mais sans filtre g\u00e9ographique. Ce dernier n\u2019est disponible que pour les donn\u00e9es agr\u00e9g\u00e9es en allant dans l\u2019explorateur.\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>Les s\u00e9ries embl\u00e9matiques sont d\u00e9duites dynamiques d'apr\u00e8s le nombre d'acc\u00e8s ou elles sont d\u00e9cid\u00e9es de mani\u00e8re statique.<\/h4>\r\n<\/div>\r\n<div id=\"collapse-serie\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\nElles sont con\u00e7ues en fonction de l\u2019int\u00e9r\u00eat a priori mais pourront \u00eatre revues en fonction de la demande.\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>Y aurait-il un lien avec la cartographie Insee ?<\/h4>\r\n<\/div>\r\n<div id=\"collapse-cartoinsee\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\nA court terme, les jeux de donn\u00e9es seront cartographi\u00e9s dans Statistiques locales\r\nParall\u00e8lement, il y a des travaux de cartographie fine \u00e0 l\u2019Insee, ce qui pourrait conduire \u00e0 terme \u00e0 une offre cartographique dans le catalogue.\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>Est-ce qu'un outil est aussi pr\u00e9vu pour faciliter la consultation et l'export des donn\u00e9es Insee Sirene ?<\/h4>\r\n<\/div>\r\n<div id=\"collapse-sirene\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\nSirene est hors du champ de Melodi.\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>La vue via l\u2019explorateur est tr\u00e8s lisible (libell\u00e9 en toutes lettres en fran\u00e7ais, \u2026). Par contre, d\u00e8s lors que les donn\u00e9es sont export\u00e9es les libell\u00e9s sont beaucoup moins lisibles. Est-il pr\u00e9vu d\u2019harmoniser les vues pour faciliter la r\u00e9utilisation des fichiers ?<\/h4>\r\n<\/div>\r\n<div id=\"collapse-libelle\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\nL\u2019export sous forme de fichier de l\u2019explorateur sera enrichi prochainement d\u2019options, notamment d\u2019options avec les libell\u00e9s au lieu des codes.\r\n\r\n<\/div>\r\n<h4><strong>Manipuler des bases parquet en toute simplicit\u00e9<\/strong>\r\n<em>Eric Mauvi\u00e8re - icem7<\/em><\/h4>\r\n<div class=\"row\">\r\n<div class=\"col-sm-6 col-md-6\">\r\n<div class=\"thumbnail\">\r\n<div class=\"caption\">\r\n<p class=\"rtecenter\"><a href=\"https:\/\/www.youtube.com\/embed\/GUpmLKLSJVc\" target=\"_blank\" rel=\"noopener\">T\u00e9l\u00e9charger la vid\u00e9o<\/a><\/p>\r\n\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>Est-il pr\u00e9vu le d\u00e9veloppement d'outils d'interrogations pour les charg\u00e9s d'\u00e9tude qui ne ma\u00eetrisent pas de SQL ?<\/h4>\r\n<\/div>\r\n<div id=\"collapse-outilinterro\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\n<a href=\"https:\/\/www.tadviewer.com\/\">TadViewer<\/a>\u00a0permet d\u00e9j\u00e0 d\u2019ouvrir, de filtrer et m\u00eame pivoter un fichier Parquet. PowerBI, Tableau et d\u2019autres outils du m\u00eame style disposent de connecteurs Parquet.\u00a0<a href=\"https:\/\/rowzero.io\/\">RowZero<\/a>\u00a0fait partie des nouveaux outils en ligne \u00e0 tester, c\u2019est un tableur super-puissant. SQL m\u00e9rite dans tous les cas d\u2019\u00eatre (r\u00e9)examin\u00e9, sans a priori.\u00a0<a href=\"https:\/\/duckdb.org\/\">DuckDB<\/a>\u00a0a introduit\u00a0<a href=\"https:\/\/duckdb.org\/2022\/05\/04\/friendlier-sql.html\">plusieurs simplifications<\/a>\u00a0qui le rendent particuli\u00e8rement amical.\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>Est-il possible de manipuler des donn\u00e9es au format Parquet uniquement \u00e0 l'aide de R ou de Python ? Si c'est le cas, que peuvent faire ceux qui ne sont pas des programmeurs ?<\/h4>\r\n<\/div>\r\n<div id=\"collapse-maniproupython\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\nOui en effet, ce\u00a0<a href=\"https:\/\/ssphub.netlify.app\/post\/parquetrp\/\">guide Insee<\/a>\u00a0en donne quelques exemples concrets, tout comme\u00a0<a href=\"https:\/\/www.youtube.com\/watch?v=ajo0VBXT6ho\">cette vid\u00e9o<\/a>. Parler de R ou Python signifie toutefois programmer, mais il est possible d\u2019interroger dans R ou Python du format Parquet avec les librairies classiques (dplyr, pandas, polars) sans \u00e9crire de SQL.\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>Datasets au Format Parquet sont mises \u00e0 disposition par API ?<\/h4>\r\n<\/div>\r\n<div id=\"collapse-datasets\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\nJe ne connais pas d\u2019API qui g\u00e9n\u00e8re des formats parquet \u00e0 la vol\u00e9e. Ce format demande un peu de temps de fabrication, pour atteindre tous ses b\u00e9n\u00e9fices en compression et m\u00e9tadonn\u00e9es. Un de ses int\u00e9r\u00eats est de pouvoir \u00eatre lu directement, sans passer par une API. Pour info, les datasets Parquet sur data.gouv.fr sont affichables avec cette url :\u00a0<a href=\"https:\/\/www.data.gouv.fr\/fr\/datasets\/?format=parquet\">https:\/\/www.data.gouv.fr\/fr\/datasets\/?format=parquet<\/a>\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>Est-ce qu'il y a des m\u00e9tadonn\u00e9es dans un dataset en format Parquet ?<\/h4>\r\n<\/div>\r\n<div id=\"collapse-metadonnees\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\nOui, pr\u00e9cis\u00e9ment, \u00e0 la fois g\u00e9n\u00e9rales (nombre de row-groups, type de chaque colonne\u2026), et sur chaque colonne. Des statistiques sont m\u00eame calcul\u00e9es (min\/max, nb de valeurs distinctes) pour chaque colonne d\u2019un row-group. Et possiblement bien davantage encore, par exemple pour un geoparquet : projection, bounding-box.\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>Sur le principe: Un dataset au format parquet est donc index\u00e9. Est-ce que c'est une mini-base de donn\u00e9es au format fichier ?<\/h4>\r\n<\/div>\r\n<div id=\"collapse-minibd\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\nCe n\u2019est pas strictement un index au sens d\u2019une base de donn\u00e9es, mais un ensemble de m\u00e9tadonn\u00e9es d\u00e9taill\u00e9es (cf. ci-dessus) permettant de \u00ab sauter \u00bb des blocs de donn\u00e9es non pertinents pour une requ\u00eate donn\u00e9e. Un fichier parquet (ou une \u00ab partition \u00bb parquet d\u00e9crit un \u00ab jeu de donn\u00e9es \u00bb (dataset), et non une base de x jeux de donn\u00e9es. Avec Parquet, le web devient LA base de donn\u00e9es, et nous incite \u00e0 ne plus dupliquer syst\u00e9matiquement les ressources. \u00c0 c\u00f4t\u00e9 de cela, DuckDB permet de constituer une base sous forme d\u2019un unique fichier physique (comme une base SQLite), dans lequel vous pourrez loger des tables dont le format de stockage est proche de Parquet).\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>Quelle est la compatibilit\u00e9\/conformit\u00e9 SQL de parquet ? Quelle est la compatibilit\u00e9 SQL de geoparquet ?<\/h4>\r\n<\/div>\r\n<div id=\"collapse-sql\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\nJe ne suis pas s\u00fbr que cela ait un sens, parquet est un format de fichier, que l\u2019on peut interroger avec des moteurs SQL, mais aussi directement en C++, Java, Julia, etc. On pourrait par contre discuter de la conformit\u00e9 SQL de DuckDB, dont le SQL est tr\u00e8s proche de celui de PostgreSQL, avec en plus de bonnes id\u00e9es pour un SQL plus amical.\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>L'enjeu pour les producteurs, c'est aussi de maitriser la mise en place d'un dataset au format Parquet optimis\u00e9. Est-ce qu'il existe des ressources \u00e0 ce sujet ?<\/h4>\r\n<\/div>\r\n<div id=\"collapse-ressources\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\nPeu actuellement, mais j\u2019ai en t\u00eate d\u2019\u00e9crire un article de blog sur ce sujet sur icem7.fr ! Comme pour une cl\u00e9 primaire, il faut veiller \u00e0 trier sur une ou deux colonnes cl\u00e9s, celles souvent utilis\u00e9es pour filtrer une requ\u00eate (ann\u00e9e, d\u00e9partement\u2026) Si le dataset d\u00e9passe le Go, un partitionnement s\u2019envisage. Les colonnes doivent \u00eatre pr\u00e9cis\u00e9ment typ\u00e9es (entier\/flottant\/date\/caract\u00e8re\/\u2026) Un algorithme de compression de type SNAPPY ou ZSTD privil\u00e9gi\u00e9 (\u00e9viter gzip). Les colonnes caract\u00e8res avec peu de valeurs distinctes peuvent \u00eatre \u00ab dictionnary-encoded \u00bb (cf. le concept de \u00ab factors \u00bb dans R). Enfin, c\u2019est en testant un \u00e9chantillon de requ\u00eates sur plusieurs variantes que l\u2019on identifie les meilleurs compromis (par exemple sur la taille des row-groups).\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>Comment Parquet peut-il remplacer une base de donn\u00e9es traditionnelle, de type PostgreSQL par exemple ? Propose-t-il une mani\u00e8re d'encapsuler plusieurs tables \u00e0 l'aide de relations ?<\/h4>\r\n<\/div>\r\n<div id=\"collapse-remplacement\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\nD\u00e9j\u00e0, Parquet peut vous \u00e9viter de dupliquer des fichiers en ligne. Sinon, vous pouvez les stocker sans n\u00e9cessairement les encapsuler. Avec DuckDB par exemple, on n\u2019a plus vraiment besoin de d\u00e9finir des cl\u00e9s primaires ou \u00e9trang\u00e8res pour acc\u00e9l\u00e9rer les requ\u00eates avec jointures. Mais notez bien qu\u2019avec Parquet on s\u2019inscrit dans un sch\u00e9ma analytique (OLAP) lecture seule, plut\u00f4t que transactionnel (OLTP : \u00e9criture et lecture).\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>DataSet au format Parquet et la gestion des habilitations d'acc\u00e8s ? Est-ce pr\u00e9vu ? M\u00eame question pour le chiffrement de ce type de format ?<\/h4>\r\n<\/div>\r\n<div id=\"collapse-acces\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\nParquet g\u00e8re d\u00e9sormais le\u00a0<a href=\"https:\/\/medium.com\/@Ratnark\/apache-parquet-and-encryption-572ffd99f12d\">cryptage<\/a>. Dans un m\u00eame fichier,\u00a0<a href=\"https:\/\/parquet.apache.org\/docs\/file-format\/data-pages\/encryption\/\">certaines colonnes sensibles<\/a>\u00a0peuvent \u00eatre crypt\u00e9es, sans que les autres le soient. DuckDB\u00a0<a href=\"https:\/\/duckdb.org\/docs\/data\/parquet\/encryption.html\">supporte depuis peu ce cryptage<\/a>.\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<div class=\"panel panel-primary\">\r\n<div id=\"headingTwo\" class=\"panel-heading\" role=\"tab\">\r\n<h4 class=\"panel-title\"><span class=\"glyphicon glyphicon-chevron-down\">\u00a0<\/span>DuckDB permet de produire du format Parquet, \u00e0 partir de CSV de donn\u00e9es et m\u00e9tadonn\u00e9es ? Existe-t-il un tuto sur DuckDB pour cela ?<\/h4>\r\n<\/div>\r\n<div id=\"collapse-DuckDB\" class=\"panel-collapse collapse in\" role=\"tabpanel\" aria-labelledby=\"headingTwo\" aria-expanded=\"true\">\r\n<div class=\"panel-body\">\r\n\r\n\u00c0 partir d\u2019un fichier CSV, vous pouvez sp\u00e9cifier quelques m\u00e9tadonn\u00e9es \u00e9ventuelles dans l\u2019instruction\u00a0<a href=\"https:\/\/duckdb.org\/docs\/sql\/statements\/copy\">COPY<\/a>. Sachez toutefois que le parseur CSV dans DuckDB est particuli\u00e8rement intelligent et d\u00e9tecte tr\u00e8s bien tout seul les bons types de donn\u00e9es (dates, entiers, caract\u00e8res\u2026). En particulier, il ne se trompe pas avec des codes comme 01001.\r\n\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<\/div>\r\n<\/div>","eve_animation":true,"glo_image":2472,"glo_intro":"","glo_car_surcharge_titre":"","glo_car_surcharge_lien":""},"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.4 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Webinaire - Diffusion de bases statistiques : nouvelles interfaces et nouveaux formats - DataGrandEst<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.datagrandest.fr\/site\/evenement\/webinaire-diffusion-de-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats\/\" \/>\n<meta property=\"og:locale\" content=\"fr_FR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Webinaire - Diffusion de bases statistiques : nouvelles interfaces et nouveaux formats - DataGrandEst\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.datagrandest.fr\/site\/evenement\/webinaire-diffusion-de-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats\/\" \/>\n<meta property=\"og:site_name\" content=\"DataGrandEst\" \/>\n<meta property=\"article:modified_time\" content=\"2026-03-30T08:17:35+00:00\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Dur\u00e9e de lecture estim\u00e9e\" \/>\n\t<meta name=\"twitter:data1\" content=\"8 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/www.datagrandest.fr\\\/site\\\/evenement\\\/webinaire-diffusion-de-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats\\\/\",\"url\":\"https:\\\/\\\/www.datagrandest.fr\\\/site\\\/evenement\\\/webinaire-diffusion-de-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats\\\/\",\"name\":\"Webinaire - Diffusion de bases statistiques : nouvelles interfaces et nouveaux formats - DataGrandEst\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.datagrandest.fr\\\/site\\\/#website\"},\"datePublished\":\"2024-01-04T07:16:24+00:00\",\"dateModified\":\"2026-03-30T08:17:35+00:00\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/www.datagrandest.fr\\\/site\\\/evenement\\\/webinaire-diffusion-de-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats\\\/#breadcrumb\"},\"inLanguage\":\"fr-FR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/www.datagrandest.fr\\\/site\\\/evenement\\\/webinaire-diffusion-de-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats\\\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/www.datagrandest.fr\\\/site\\\/evenement\\\/webinaire-diffusion-de-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Accueil\",\"item\":\"https:\\\/\\\/www.datagrandest.fr\\\/site\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"\u00c9v\u00e9nements\",\"item\":\"https:\\\/\\\/www.datagrandest.fr\\\/site\\\/evenement\\\/\"},{\"@type\":\"ListItem\",\"position\":3,\"name\":\"Webinaire &#8211; Diffusion de bases statistiques : nouvelles interfaces et nouveaux formats\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/www.datagrandest.fr\\\/site\\\/#website\",\"url\":\"https:\\\/\\\/www.datagrandest.fr\\\/site\\\/\",\"name\":\"DataGrandEst\",\"description\":\"\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/www.datagrandest.fr\\\/site\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"fr-FR\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Webinaire - Diffusion de bases statistiques : nouvelles interfaces et nouveaux formats - DataGrandEst","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.datagrandest.fr\/site\/evenement\/webinaire-diffusion-de-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats\/","og_locale":"fr_FR","og_type":"article","og_title":"Webinaire - Diffusion de bases statistiques : nouvelles interfaces et nouveaux formats - DataGrandEst","og_url":"https:\/\/www.datagrandest.fr\/site\/evenement\/webinaire-diffusion-de-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats\/","og_site_name":"DataGrandEst","article_modified_time":"2026-03-30T08:17:35+00:00","twitter_card":"summary_large_image","twitter_misc":{"Dur\u00e9e de lecture estim\u00e9e":"8 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/www.datagrandest.fr\/site\/evenement\/webinaire-diffusion-de-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats\/","url":"https:\/\/www.datagrandest.fr\/site\/evenement\/webinaire-diffusion-de-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats\/","name":"Webinaire - Diffusion de bases statistiques : nouvelles interfaces et nouveaux formats - DataGrandEst","isPartOf":{"@id":"https:\/\/www.datagrandest.fr\/site\/#website"},"datePublished":"2024-01-04T07:16:24+00:00","dateModified":"2026-03-30T08:17:35+00:00","breadcrumb":{"@id":"https:\/\/www.datagrandest.fr\/site\/evenement\/webinaire-diffusion-de-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats\/#breadcrumb"},"inLanguage":"fr-FR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.datagrandest.fr\/site\/evenement\/webinaire-diffusion-de-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/www.datagrandest.fr\/site\/evenement\/webinaire-diffusion-de-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Accueil","item":"https:\/\/www.datagrandest.fr\/site\/"},{"@type":"ListItem","position":2,"name":"\u00c9v\u00e9nements","item":"https:\/\/www.datagrandest.fr\/site\/evenement\/"},{"@type":"ListItem","position":3,"name":"Webinaire &#8211; Diffusion de bases statistiques : nouvelles interfaces et nouveaux formats"}]},{"@type":"WebSite","@id":"https:\/\/www.datagrandest.fr\/site\/#website","url":"https:\/\/www.datagrandest.fr\/site\/","name":"DataGrandEst","description":"","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.datagrandest.fr\/site\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"fr-FR"}]}},"_links":{"self":[{"href":"https:\/\/www.datagrandest.fr\/site\/wp-json\/wp\/v2\/evenement\/1374","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.datagrandest.fr\/site\/wp-json\/wp\/v2\/evenement"}],"about":[{"href":"https:\/\/www.datagrandest.fr\/site\/wp-json\/wp\/v2\/types\/evenement"}],"version-history":[{"count":4,"href":"https:\/\/www.datagrandest.fr\/site\/wp-json\/wp\/v2\/evenement\/1374\/revisions"}],"predecessor-version":[{"id":5425,"href":"https:\/\/www.datagrandest.fr\/site\/wp-json\/wp\/v2\/evenement\/1374\/revisions\/5425"}],"wp:attachment":[{"href":"https:\/\/www.datagrandest.fr\/site\/wp-json\/wp\/v2\/media?parent=1374"}],"wp:term":[{"taxonomy":"periode","embeddable":true,"href":"https:\/\/www.datagrandest.fr\/site\/wp-json\/wp\/v2\/periode?post=1374"},{"taxonomy":"source","embeddable":true,"href":"https:\/\/www.datagrandest.fr\/site\/wp-json\/wp\/v2\/source?post=1374"},{"taxonomy":"thematique_globale","embeddable":true,"href":"https:\/\/www.datagrandest.fr\/site\/wp-json\/wp\/v2\/thematique_globale?post=1374"},{"taxonomy":"type_evenement","embeddable":true,"href":"https:\/\/www.datagrandest.fr\/site\/wp-json\/wp\/v2\/type_evenement?post=1374"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}