Commit 85d707a8 authored by Grégoire Métral's avatar Grégoire Métral
Browse files

Ajout de la liste des corrections et de 2 annexes

parent 82ed033c
......@@ -131,7 +131,7 @@ Date du relevé: entre 2011 et 2012.
* Relevé effectué par: Université de Genève, CIGEV.
* Documentation: questionnaires, calendriers de vie, feuillets d'entretien, planches, codebook, XXX rapport final XXX.
* Cas: 3080.
* Cas: 3080, auxquels s'ajoutent 555 personnes pour lesquelles un proxy a été interrogé.
* Variables: 1224 conservées.
* Format: CSV + syntaxe SPS pour importation dans SPSS.
......@@ -174,9 +174,30 @@ La matrice des données qui englobe les variables des 2 questionnaires principau
Avec la syntaxe fournie, tous les labels de variables sont indiqués sous forme du libellé de la question, repris du questionnaire. Les labels sont parfois tronqués en raison des limitations de SPSS, mais la question complète peut être retrouvée dans les fichiers PDF.
#### Variables construites et corrections
Quelques variables construites sont présentes au début du jeu de données: groupement par canton (ou région pour BE), groupe d'âge, âge à l'entretien...
XXX reprendre le rapport de traitement XXX
Quelques variables construites sont présentes au début du jeu de données: groupement par canton (ou région pour BE), groupe d'âge, âge à l'entretien... D'autres variables construites se trouvaient en fin de matrice (indice de Wang): elles ont été supprimées pour ne conserver que les données originales.
Le nettoyage de base a consisté en les opérations suivantes:
* modification de tous les labels de variables en reprenant le libellé de la question
* modification de tous les labels de valeurs en reprenant les libellés des items
* vérification de toutes les mesures (nominal, ordinal, scale)
* définition de tous les missings en négatif en gardant la [#missing](convention expliquée ci-dessous)
* codification de certaines variables string (qa_b12 et qa_b13 notamment)
* suppression des variables qf_n1 à qf_s10 qui sont vides (nombre maximal d'enfants dans l'échantillon = 9)
* correction de certains noms de variables avec fautes d'orthographe (p. ex. portuguais -> portugais)
Les corrections de base ont porté sur les points suivants:
* recodage des lieux de résidence, ajout des codes oubliés, vérification et correction des codes sauvages
* adoption d'une logique systématique pour les sexes (1=Femme, 2=Homme)
* transformation en -7 (INAP) tous les missings qui correspondaient à des questions n'ayant manifestement pas été posées (filtres)
* correction de nombreuses erreurs et incohérences (parfois en reprenant les questionnaires papier, parfois en utilisant le code -3 (NV)
* correction de toutes les incohérences sur le nombre d'enfants, leurs dates de naissance, les petits-enfants: 3 chercheuses de l'équipe VLV ont travaillé sur ce point et leurs résultats ont été intégrés
Toutes les autres corrections ont été consignées dans un document annexe. La syntaxe de correction pour les enfants et petits-enfants, permettant de voir les corrections effectuées, est aussi disponible dans un document séparé.
Certaines incohérences demeurent:
* questions filtres de la section D du QAA ne sont pas respectées (pas corrigé)
* question filtre E5 pour question E7 du QAA n'est pas respectée (pas corrigé)
* question qf_ar1*: l'individu 111005 répond "oui" à toutes les questions... étonnant!
#### Variables contextuelles
Quelques variables contextuelles figurent au début du qusetionnaire: code de l'encodeur (= personne qui a fait la codification), code de l'enquêtrice ou de l'enquêteur, consentement pour l'utilisation des données à des fins pédagogiques obtenu, date du premier rendez-vous.
......
Corrections apportées à VLV1 (voir documentation, section "Variables construites et corrections")
1) recodé les lieux d'habitation (enfants, réseau social):
P-xxxx (codes pour pays, régions, continents): transformé en 8xxx (4 chiffres, de 8001 à 8619)
et défini la variable comme numérique (largeur 4)
2) ajouté toutes les nationalités non documentées pour les questions sur les nationalités (ego, mère, père, enfants, conjoint, précédent partenaire...)
corrections supplémentaires:
8238 -> ajouté (Tchécoslovaquie)
9998 -> ajouté (Apatride)
8256 -> ajouté (Kosovo, item de réponse donné)
8248 -> ajouté (Serbie, item de réponse donné)
8220 -> 8249 (Yougoslavie)
8577 -> 8244 (République tchèque, pour "qa_a4 - nationalité actuelle")
3) correction des codes sauvages:
ego 113155, variable qf_v4b, valeur 16498 -> -3
4) Réseau social: les sexes étaient définis par 0 = Homme, 1 = Femme alors que partout ailleurs nous avons 1 = Femme, 2 = Homme. Les données ne comportaient pas de 0, mais des 2. J'ai donc corrigé 0 -> 2 (Homme).
5) recodé les variables qa_b5 et qa_b10 pour intégrer dans la même variable le code de la commune si on est en Suisse (et donc supprimé les variables qa_b5b et qa_b10b)
6) repris et corrigé toute la codification de la variable qa_b10 en prenant les codes OFS plutôt que les codes postaux...
7) éliminé les quelques (rares) données dans les variables qa_b12 -> qa_b14 lorsque qa_b11 = 1, après vérification de la cohérence dans le fichier original (passées en -7)
8) section C: traité les incohérences en mettant -3 (NV) pour les questions où EGO n'a pas d'enfants, mais a des petits-enfants et arrière-petits-enfants (on pourra retrouver le code d'EGO dans ces cas)
9) corrigé qa_d1 pour 4 personnes (221132, 611186, 621044 et 723115), en fonction de la réponse à la question qa_d2
10) beaucoup d'incohérences dans les questions filtres de la section E:
filtre E1 "EMS" pas respecté – j'ai corrigé en mettant des INAP pour toutes les questions suivantes (jusqu'à E8)
11) variable qf_d2 (nb d'enfants): pas de valeur 2, mais beaucoup de valeurs 0; recodé tous les 0 en 2 si qa_c2 = 2
12) corrigé les 2 variables qa_c2 et af_d2 pour rendre la cohérence (souvent grâce au calendrier de vie); non corrigé: #121038 (pas d'enfants, mais considère enfant de sa compagne comme son fils)
13) ego #122157 (ligne 393): beaucoup de questions manquantes car remplies sur questionnaire II manuel; repris quelques-unes selon le questionnaire II manuel et recodé les réponses
14) corrigé les grands amours incohérents:
qf_w1: -2 -> 4 pour tous ceux qui ont des données dans les colonnes suivantes
code_ego 224031: correspondrait à une personne entre le partenaire précédent et actuellement (probablement pas signalé parce que pas vécu en couple); corrigé qf_w1 en 4 (autre)
code_ego 716036: correspond manifestement au partenaire précédent -> enlevé les données après qf_w1
code_ego 716216: idem
15) code_ego 722063: n'a pas réussi l'exercice qf_ab3, mais a pourtant mis 22 secondes (qf_ab4); corrigé qf_ab4 en -7; idem avec code_ego 612143 et 723056, qui n'ont pas réussi l'exercice qf_ab6 mais ont mis 135 secondes à qf_ab7, et code_ego 723071, qui n'a pas réussi le même exercice qf_ab6 mais a mis 140 secondes (corrigés en -7 pour qf_ab7)
16) question AU1: recodé tous les cantons (+1) pour qu'il n'y ait pas de 0 (Genève = 1, Valais = 2, etc.); il y avait quelques différences avec la variable "canton" qui se trouve au début du fichier: corrigé les variables qf_au1 des code_ego 525001 et 525003 (canton Bâle -> Berne), et 615105 et 625051 (canton Berne -> Bâle); pour les absences de réponses à la question qf_au1 (valeur -2); adapté aussi les autres questions qui avaient été filtrées
17) corrigé quelques codes sauvages: code_ego 713114 (TI) répond à des question de GE; 621177 et 623035 (BS/BL) répondent à des questions de plusieurs autres cantons
18) question qa_a8 (plus haut niveau de formation): corrigé 2 codes "autres" en "secondaire supérieur"; dans les 2 cas (721075 et 726045, il s'agit de Tessinois/es ayant fait la "Verkehrsschule St Gallen" (fermée en 2001, l'école semblait préparer aux métiers des entreprises de transport); l'un a écrit le label en face de secondaire supérieur
19) question qa_b15: 8 personnes avaient répondu entre 2 cases, ce qui avait été codé en décimal (2.5, 3.5 etc.). Arrondi toutes les valeurs à l'entier supérieur. Rappel des valeurs originales:
114050: 4.5
221115: 1.5
224119: 3.5
425025: 2.5
524025: 2.5
625073: 3.5
714211: 3.5
725102: 3.5
This diff is collapsed.
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment