Overblog
Editer l'article Suivre ce blog Administration + Créer mon blog
31 décembre 2007 1 31 /12 /décembre /2007 08:57

Ces sujets évoquent des données chiffrées. Ces données chiffrées fournissent de l’information sur un « vaste ensemble ».
Il faut tout d’abord répéter que « la carte n’est pas le territoire ». Aussi précises et « exhaustives » ces données soient elles, ce n’est qu’une projection. En pratique, les données sont très partielles, et la connaissance de l’ensemble est largement lacunaire.
 
J’ai évoqué dans un flou volontaire l’objet de ces chiffres : « un vaste ensemble ».
L’une des premières difficultés que l’on rencontre et de savoir si l’ensemble en question est « précisément défini » ou non. Prenons par exemple l’ensemble des participants à une manifestation. Il est sans doute borné (c'est-à-dire que l’on peut trouver un sur ensemble fini le contenant). Par contre, la détermination de la participation ou non à une manifestation est sans doute délicate : entre les « clairement participants » et les « clairement non participants », il y a une zone frontière.
Cette situation se retrouve fréquemment. Si cette zone frontière n’est pas d’importance « marginale », il est clair que le chiffrage ne peut être qu’en ordre de grandeur. C'est-à-dire que les fournisseurs de ces chiffres doivent abandonner tout prétention de précision.
Si la zone frontière est «d’importance marginale », elle est une première source d’imprécision dont il faut avoir conscience.
 
Un deuxième caractéristique de ce « vaste ensemble » est de savoir s’il concerne uniquement le passé ou non. Je vais examiner ici le premier cas.
S’il concerne uniquement le passé, la « définition de l’ensemble » est (en théorie) fixe. Le nombre d’être humain ayant vécu, le temps passé depuis le big bang, le déficit de l’état français en 2005, le nombre d’habitant en France en 2005, le nombre de but marqué par Maradona en match officiel, etc. Il est nécessaire d’avoir des « archives » sur cet ensemble afin de pouvoir « compter ». L’action de compter qui parait simple est susceptible d’erreur.
Rappelons les principes du comptage (ce sont ceux de l’arithmétique) : individualiser les éléments comptés, les éléments sont non marqués au départ, partir d’un compteur à zéro, passer en revue un à un les éléments (choisir un élément non marqué, faire + 1 dans le compteur et marquer l’élément choisi), s’arrêter lorsque l’on ne trouve plus d’élément non marqué.  Et bien tout cela devient très difficile lorsque le nombre d’élément à compter est important. Le marquage n’est pas simple à pratiquer. En conséquence, le fait de ne pas compter plusieurs fois le même élément est délicat. Enfin, savoir si l’on a tout compté ou pas est un vrai problème.
En pratique, le comptage ne se fait sur les éléments « réels » mais sur des informations tirées de ces éléments : c’est un travail documentaire. C'est-à-dire que l’on passe de « l’élément réel » à une représentation partielle de celui-ci. Cette saisie de donnée peut être source d’erreur. Qui plus est, la projection de l’élément réel sur une « fiche » de donnée peut « coincer ». On ne prend en compte que les éléments de la fiche, et on ignore donc d’autres caractéristiques. Si la fiche est à choix fermé, faire « entrer l’élément réel » dans la fiche peut être une approximation abusive. Enregistrer ces données c’est un travail de mesure : or la prise de mesure est une activité coûteuse. On peut être tenté d’alléger ce coût en « faisant vite ».
On peut tenter de pallier ces problèmes en échantillonnant. Ceci peut se faire pour mesurer la qualité des données obtenues. Ceci peut aussi se faire sur la prise des données : on n’enregistre qu’un petite partie de l’ensemble. L’échantillonnage suppose une certaine homogénéité de l’ensemble et qu’il n’y a pas de biais. Selon certaines hypothèses sur le résultat (loi normale), la taille de l’échantillon fournit le degré de fiabilité de la pratique. On oublie généralement ces hypothèses.
L’obtention des données est sans doute l’étape la plus fragile du processus. Il y a ensuite une étape de « prise en compte informatique ». C’est une étape technique sur laquelle des fraudes ou erreurs peuvent être commises. Enfin, il y a l’étape de restitution. C'est-à-dire qu’il s’agit de réduire la masse considérable d’informations détaillées (illisible) en un petit nombre de chiffres de synthèses dit « statistiques ». Nous sommes ici dans un cadre qui utilise un outil mathématique mature. Par contre, l’objectivité de cet outil n’empêche pas une manipulation selon l’intention de celui qui opère.
La manipulation intervient par exemple par le choix des dates de départ et de fin pour les évolutions temporelles. C’est notamment le cas des courbes de performances des OPCVM. On trouve aussi le choix des critères de regroupement, des comparaisons.
 
Partager cet article
Repost0

commentaires

PrÉSentation

  • : je blogue, donc je suis
  • : Si vous cherchez la vérité, allez croire ailleurs !
  • Contact

Recherche

Archives