Statistiques : construction des échantillons (Alonzo)

Il y a une différence entre un extrait (partie de …, morceau choisi, fragment, …) et un échantillon.
Un échantillon, en tant qu’élément servant de modèle de référence pour juger d’un ensemble. C’est une fraction représentative d’un objet.

La construction des échantillons

La définition de la population est tributaire de :
- l’objet même de l’enquête
- des hypothèses de travail choisies
- du type d’échantillonnage adopté
  Selon la nature des documents dont on dispose on peut être amené à restreindre la définition de la population
- des contraintes matérielles imposées
   On peut être obligé de restreindre la population en cas de contraintes financières, de contraintes de temps, …

I- La partie pour le tout

La construction des échantillons a une histoire.
1) La technique des enquêtes par sondages probabilistes n’apparait que vers la fin du XIX sous une forme assez rudimentaire et intuitive avec le norvégien Kiaer.
2) Les premiers calculs d’intervalles de confiance datent de 1906 : anglais Bowley.
3) La formalisation détaillée des méthodes de stratification datent de 1934. On les doit à Neyman né en Bessarabie.
P.S. Laplace (méthode critiquée car son échantillon n’était pas représentatif) critiqué par Quételet (partisan du recensement exhaustif)
Entre 1895 et 1903, on cherche à savoir si on peut remplacer le tout par la partie et faire mieux que la monographie. Entre 1925 et 1934, le débat porte sur la manière de mettre concrètement en place la méthode d’échantillonnage probabiliste.
Comment passer du tout à la partie ?
On peut replacer l’opposition entre la méthode de la monographie et celle de l’enquête exhaustive dans le cadre du débat entre holisme et individualisme.
Les premiers enquêtes ont été les monographies de Le Play puis sont apparus les enquêtes de Booth et Rountree suivies de celles de Halbwachs. Elles n’avaient pas de contrainte de représentativités et étaient construites via des réseaux de familiarités. Etant donné le contexte elles se sont révélées assez cohérentes. Ces typologies (à travers leur vision holiste) vont essayer d’éliminer les caractères imprévisibles des comportements individuels. En utilisant la régularité des moyennes cette typologie ne peut être confondue avec celle des échantillons pris aux hasards. Lorsqu’on a des moyennes stables, il suffit de trouver des cas proches de ces moyennes qui pourront représenter la totalité et qui vont même devenir cette totalité.
Emile Chesson (disciple de Le Play) - Dans ses travaux le cas individuel n’apparait jamais.
Halbwachs cherche à trouver l’équilibre entre le nombre des personnes étudiées et les observations. Il se méfie des enquêtes extensives réalisées au USA, de la monographie, … Les interactions entre enquêteur et enquêté le dérange (il y a une différence entre ce qu’on dit que l’on fait et ce que l’on fait vraiment).
La statistique change progressivement de statut et va servir des politiques qui veulent agir au niveau individuel.
Trois domaines vont être importants pour imposés la représentativité :
1) Mise en place des lois de protection sociale en Europe du nord dans les années 1890
2) Développement des marchés de biens de consommation aux USA grâce au chemin de fer
3) Possibilité de mener nationalement des campagnes électorales aux USA entre les deux guerres
Ces trois domaines présentent un point commun : le passage de modes de gestions locaux à des modes de gestion nationaux ce qui suppose une mise en équivalence générale et uniformisation du territoire.
è Création des départements, mise en place du suffrage universel, du service militaire obligatoire, de l’obligation scolaire, suppression des langues locales, uniformisation des systèmes métriques, des horaires de chemin de fer, … Toute cette organisation constitue les conditions préalables pour penser l’exhaustivité et la représentativité.
En 1880, en Angleterre, la pauvreté est ressentie comme étant très forte. L’enquête va se porter sur  les causes de cette pauvreté (mauvaise gestion ou cause macro-sociale à cause de la crise). Dans cette enquête les ouvriers sont choisis par impression. Ce pause ensuite la question des résultats représentatifs par quartier.

Bowley est le premier à utiliser une miniature, une maquette de la société pour mener son enquête. Pour cela il choisit deux villes industrielles. Il mettra en place une enquête avec obligation de répondre en y introduisant également plus de distance entre l’enquêté et l’enquêteur. Ce sera le premier à calculer la marge d’erreur, le degré d’imprécision, l’intervalle de confiance, … Il met en place des variables quantifiables de la pauvreté. Il ne veut pas assumer la responsabilité de régler les problèmes qu’il va mettre en évidence.
C’est à cette époque, que s’imposent les statisticiens d’état. Weber, par exemple, prône la séparation du scientifique et du politique.

En 1894, Kiaer organise en dénombrement représentatif de la population grâce à des tirages successifs de localités. Il pense que si on peut contrôler sur quelques variables grâce au dénombrement exhaustif la bonne adéquation  entre l’échantillon et la population générale cela signifie que l’on va pouvoir étendre à d’autres variables les résultats obtenus. Il va totalement repenser la stratification sociale en mettant en équivalence les différentes classes sociales. Il pose ici la question des inégalités sociales. Question qu’il place au cœur de ses travaux. Pour lui, la pauvreté est une notion relative.

Un problème se pose : celui de l’articulation entre ce que l’on sait déjà et ce que l’on ne sait pas encore. Kiaer propose donc de mettre en place de manière systématique une nomenclature.  Il faut que ces variables soient mises en place par un organisme qui en garantisse la stabilité à statistique publique.

Aux USA, en 1930, c’est l’avènement de l’échantillonnage aléatoire à travers les études du marché des biens de consommation et les études pré-électorales. Pour cela il faut une standardisation et une généralisation. Autrement dit la mise en équivalence de « quelque chose » sur l’ensemble du territoire. A l’époque les grandes enquêtes de consommation apparaissent. En 1936, le Literacy digest a mené un sondage pré-électoral auprès de ses lecteurs et des abonnés du téléphone (soit 2 millions de personnes). Ce sondage donne Landan (républicain) comme gagnant hors c’est Roosevelt (démocrate) qui gagne l’élection. Au même moment, Georges Gallup fait un sondage avec 4000 personnes choisir aléatoirement et donne Roosevelt comme gagnant.

1) Choisir l’échantillon
L’idéal serait de pouvoir interroger tout la population = population parente, population mère.

a) Population mère et critères d’inclusion
Une population mère est composée d’unités statistiques (un individu, une entreprise, …). La population est définie par les caractéristiques des individus : sont-ils aptes à participer à l’enquête ?
Exemple : fréquentation d’un cinéma
- Définir ce que signifie « aller au cinéma » : pratique minimale

Echantillon représentatif
- échantillon qui rend compte de la diversité de la population d’où il a été tiré et qui en reproduit les principales caractéristiques

b) Le sondage
Sonder c’est choisir une partie pour représenter le tout. Le choix de l’échantillon est important afin d’éviter les généralisations abusives. Si l’échantillon est mal choisi, mal fait, on se retrouve avec des résultats faux.
Pour qu’il soit représentatif un échantillon doit permettre à tous les membres d’une population d’y figurer. La taille de l’échantillon va jouer sur la précision des résultats.

2) L’échantillon aléatoire
Technique d’échantillonnage qui fait appel au hasard afin que chaque élément  de la population ait une chance connue et non nulle de faire partie de l’échantillon. On dit aussi échantillonnage probabiliste.
Pour construire un échantillon aléatoire il faut disposer d’une liste exhaustive de la population mère ( = de la base de donnée). Néanmoins cela ne suffit pas à avoir un échantillon représentatif.
a) La table des nombres aléatoires
C’est une matrice de chiffres dans laquelle les chiffres apparaissent avec sensiblement la même fréquence et sans ordre préétabli. La première a été mise au point par Tippett en 1927. Puis vint celle de la Rand corporation en 1955 et enfin, la plus courante, celle de Kendall et Babington Smith (1959) qui contient 100 000 chiffres (100 feuilles de 1000 chiffres groupés par 2, 4 ou 5).
b) Utilisation de la « table of random numbers »
On choisit au hasard un point d’entrée dans la table et un sens de parcours dans la table pour prélever les chiffres.
Exercice : On veut prélever 8 individus dans une population de 850 individus.
- On réalise donc 8 tirages successifs au hasard et sans remise.
- On numérote l’ensemble des individus de 1 à 850 ou de 000 à 849.
- On définit le point d’entrée (avec un dé par exemple)

3) L’échantillon aléatoire simple
Consiste à sélectionnée des individus de façon à ce que tous aient la même probabilité d’être sélectionné dans l’échantillon. C’est un échantillonnage sans remise (= échantillonnage exhaustif).
Le taux de sondage est la proportion de la population qui a été échantillonnée. Il équivaut au quotient de la taille de l’échantillon (n) par la taille de la population (N) soit n/N.  On l’exprime généralement en pourcentage.
Le poids du sondage est le nombre d’individus de la population que représente chaque unité statistique de l’échantillon : N/n.
Il n’élimine pas la variabilité. C’est-à-dire que les observations faites sur l ‘échantillon peuvent différer de celles qui aurait été faites sur la population totale. Néanmoins il a des avantages : il est facile à réaliser, si l’échantillon est assez grand la qualité de représentativité est satisfaisante. Son inconvénient est qu’il nécessite une liste de la population pour pouvoir le réaliser alors que cette liste est parfois dure à réaliser de façon certaine. Au final l’échantillonnage aléatoire simple ne supprime pas les écarts entre l’échantillon et la population et les résultats peuvent être faussés.

4) L’échantillon aléatoire systématique
Dans ce cas l’échantillon est constitué d’individus pris à intervalles fixes dans la base de sondage.
La longueur de l’intervalle équivaut au rapport entre la taille de la population (N) et la taille de l’échantillon (n) : N/n (= poids du sondage).
Pas du sondage : distance entre deux unités consécutives prélevées dans la base de sondage lorsqu’ ‘on effectue un échantillonnage aléatoire systématique. Le pas du sondage (d) est un entier voisin du rapport N/n.

Créer un site gratuit avec e-monsite - Signaler un contenu illicite sur ce site

×