Présentation

Date de publication

6 décembre 2024

Introduction

Les objectifs de la formation proposée sont les suivants :

  • Pouvoir présenter l’utilisation de fichiers issus de la statistique publique, pour reproduire, autant que faire se peut, des tableaux et graphiques, issues de publications scientifiques.

  • De fait, sensibiliser les utilisateurs de données en science sociales à la ré-exploitation de données d’enquêtes réelles et introduire une pédagogie quant à la ré-utilisation de ces données, à partir de problématiques de recherche.

On se basera donc, dans ce volet à reproduire un ensemble de graphiques issus d’un numéro de Population et Sociétés, BEAUCHEMIN, Cris, HAMEL, Christelle, LESNÉ, Maud, et al. Les discriminations: une question de minorités visibles. Population & Sociétés, 2010, no 4, p. 1-4..

Cette reproductibilité sera effectuée via le logiciel R, et principalement à travers l’écosystème Tidyverse. Les bases du logiciel font l’objet d’un document séparé présentant brièvement quelques caractéristiques du langage, particulièrement utilisées en sciences sociales.

Déroulement

Le kit peut-être réalisé de façon indépendante dans un cadre d’autofirmation, ou en présence d’un formateur (compter environ 6 à 12 heures de formation en tout). Aucun pré-requis n’est nécessaire pour la réalisation de ce kit. Il s’adresse particulièrement aux personnes qui sont peu familières avec le traitement de données d’enquêtes quantitatives.

Il bénéficie d’un jeu de données simplifié et anonymisé à visée pédagogique de l’enquête TeO-1 préparé par le Service des Enquêtes de l’INED (Institut national d’études démographiques). Il contient une sélection des réponses originales dans l’enquête ERFI-1 dont certaines sont recodées/modifiées en vue de leur anonymisation

Données fournies

Chaque observation correspond à un individu enquêté (ex: microdonnées de recensements ou d’enquêtes). La procédure d’anonymisation appliquée à certaines des variables du jeu de données de cette formation ne permet pas d’utiliser ce fichier à des fins de recherche. Il ne peut être réutilisé qu’à des fins pédagogiques. De ce fait, les chiffres produits pourront varier légèrement par rapport aux chiffres effectivement publiés. Néanmoins les ordres de grandeurs seront identiques.

La pseudonymisation et l’anonymisation constituent deux mesures de modification d’une version originale d’un jeu de données qui sont recommandées par le RGPD pour limiter les risques liés au traitement de données personnelles. Les microdonnées anonymisées sont des données en accès libre et gratuit, facilement réutilisables par toutes et tous (open data) mais uniquement à des fins pédagogiques. Des détails concernant les procédures d’anonymisation appliquées par le service des enquêtes de l’INED au jeu de données anonymisé de cette formation sont accessibles ici.

Le fichier pseudonymisé de l’enquête TeO-1 (pouvant être réutilisé à des fins de recherche) est mise à disposition gratuitement de la communauté scientifique via Quetelet-Progedo-Diffusion. Pour obtenir ces données, l’utilisateur doit formuler une demande sur le portail de commande de Quetelet-Progedo Diffusion ; acceptée sous condition de statut, présence d’une adresse e-mail institutionnelle de rattachement et du bref résumé d’un projet de recherche. Si la demande est acceptée, cela conduit à la signature d’un engagement individuel à destination de l’ADISP (Archives des Données Issues de la Statistique Publique), et dans le cas d’un fichier de données pseudonymisées (appelé fichiers de Production et de Recherche-FPR), d’un engagement de confidentialité à destination du Comité du Secret Statistique.