Lundi 31 décembre 2007

Ces sujets évoquent des données chiffrées. Ces données chiffrées fournissent de l’information sur un « vaste ensemble ».
Il faut tout d’abord répéter que « la carte n’est pas le territoire ». Aussi précises et « exhaustives » ces données soient elles, ce n’est qu’une projection. En pratique, les données sont très partielles, et la connaissance de l’ensemble est largement lacunaire.
 
J’ai évoqué dans un flou volontaire l’objet de ces chiffres : « un vaste ensemble ».
L’une des premières difficultés que l’on rencontre et de savoir si l’ensemble en question est « précisément défini » ou non. Prenons par exemple l’ensemble des participants à une manifestation. Il est sans doute borné (c'est-à-dire que l’on peut trouver un sur ensemble fini le contenant). Par contre, la détermination de la participation ou non à une manifestation est sans doute délicate : entre les « clairement participants » et les « clairement non participants », il y a une zone frontière.
Cette situation se retrouve fréquemment. Si cette zone frontière n’est pas d’importance « marginale », il est clair que le chiffrage ne peut être qu’en ordre de grandeur. C'est-à-dire que les fournisseurs de ces chiffres doivent abandonner tout prétention de précision.
Si la zone frontière est «d’importance marginale », elle est une première source d’imprécision dont il faut avoir conscience.
 
Un deuxième caractéristique de ce « vaste ensemble » est de savoir s’il concerne uniquement le passé ou non. Je vais examiner ici le premier cas.
S’il concerne uniquement le passé, la « définition de l’ensemble » est (en théorie) fixe. Le nombre d’être humain ayant vécu, le temps passé depuis le big bang, le déficit de l’état français en 2005, le nombre d’habitant en France en 2005, le nombre de but marqué par Maradona en match officiel, etc. Il est nécessaire d’avoir des « archives » sur cet ensemble afin de pouvoir « compter ». L’action de compter qui parait simple est susceptible d’erreur.
Rappelons les principes du comptage (ce sont ceux de l’arithmétique) : individualiser les éléments comptés, les éléments sont non marqués au départ, partir d’un compteur à zéro, passer en revue un à un les éléments (choisir un élément non marqué, faire + 1 dans le compteur et marquer l’élément choisi), s’arrêter lorsque l’on ne trouve plus d’élément non marqué.  Et bien tout cela devient très difficile lorsque le nombre d’élément à compter est important. Le marquage n’est pas simple à pratiquer. En conséquence, le fait de ne pas compter plusieurs fois le même élément est délicat. Enfin, savoir si l’on a tout compté ou pas est un vrai problème.
En pratique, le comptage ne se fait sur les éléments « réels » mais sur des informations tirées de ces éléments : c’est un travail documentaire. C'est-à-dire que l’on passe de « l’élément réel » à une représentation partielle de celui-ci. Cette saisie de donnée peut être source d’erreur. Qui plus est, la projection de l’élément réel sur une « fiche » de donnée peut « coincer ». On ne prend en compte que les éléments de la fiche, et on ignore donc d’autres caractéristiques. Si la fiche est à choix fermé, faire « entrer l’élément réel » dans la fiche peut être une approximation abusive. Enregistrer ces données c’est un travail de mesure : or la prise de mesure est une activité coûteuse. On peut être tenté d’alléger ce coût en « faisant vite ».
On peut tenter de pallier ces problèmes en échantillonnant. Ceci peut se faire pour mesurer la qualité des données obtenues. Ceci peut aussi se faire sur la prise des données : on n’enregistre qu’un petite partie de l’ensemble. L’échantillonnage suppose une certaine homogénéité de l’ensemble et qu’il n’y a pas de biais. Selon certaines hypothèses sur le résultat (loi normale), la taille de l’échantillon fournit le degré de fiabilité de la pratique. On oublie généralement ces hypothèses.
L’obtention des données est sans doute l’étape la plus fragile du processus. Il y a ensuite une étape de « prise en compte informatique ». C’est une étape technique sur laquelle des fraudes ou erreurs peuvent être commises. Enfin, il y a l’étape de restitution. C'est-à-dire qu’il s’agit de réduire la masse considérable d’informations détaillées (illisible) en un petit nombre de chiffres de synthèses dit « statistiques ». Nous sommes ici dans un cadre qui utilise un outil mathématique mature. Par contre, l’objectivité de cet outil n’empêche pas une manipulation selon l’intention de celui qui opère.
La manipulation intervient par exemple par le choix des dates de départ et de fin pour les évolutions temporelles. C’est notamment le cas des courbes de performances des OPCVM. On trouve aussi le choix des critères de regroupement, des comparaisons.
 
par thidgr publié dans : Statistique
ajouter un commentaire commentaires (0)    créer un trackback recommander
Vendredi 28 décembre 2007
Lorsque j’ai créé cette catégorie « Statistique », j’avais en tête un article paru dans la revue « La recherche Hors série ». Il s’agit du numéro 13 d’octobre-décembre 2003.
 
Je vais citer un exemple de la page 60 « du bon usage des statistiques » (Ulrich Hoffrage, Ralph Hertwig, Gerd Gigrenzer et Samuel Lindsey).
 
« Etant donné une maladie dont la prévalence (nombre de cas dans une population sans distinction des cas nouveaux et anciens) et de 1/1000 et pour laquelle il existe un test de dépistage donnant 5% de faux positifs, quel est le risque qu’une personne dont le test est positif soit effectivement malade (on ne sait rien d’autre de cette personne). »
 
Comme vous êtes prévenus, vous allez sans doute cogiter et ne pas répondre « 95% » comme la plupart des gens (donné par 27 étudiants en faculté de médecine sur 60).
 
 
 
 
 
Alors la bonne valeur ?
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Sur 1000 personnes, il n’y a un malade (vrai positif) et 50 faux positifs. Il y aura donc 1 malade sur 51 positifs soit 2% (la décimale est illusoire à ce niveau de précision). La réponse a été donnée par 11 étudiants sur 60.
 
Je trouve l’exemple frappant en ce qui concerne la signification des statistiques. En effet, il est simple : il n’y a que 2 « taux ». « Tout le monde » sait ce qu’est un taux.
Les valeurs de ces taux ne sont pas aberrantes (bien que 5% de faux positif puisse sembler un peu élevé). La prévalence est « raisonnable ».
Pourtant, le fait de n’avoir qu’une probabilité de 2% d’être malade lorsqu’on est positif est ridiculement faible. Tellement faible que cela en est choquant.
J’aimerai savoir ce que signifie « être positif » pour les contrôles anti-dopage. Quel est le taux de « faux positif » ? Est-il aussi faible ?
 
On pourrait croire que le fait d’être positif entraîne « presque à coup sûr » le fait d’être malade. Ce n’est pas le cas dans cet exemple.
Pire, le résultat va à l’encontre ce que « l’on croit savoir ». Qui en effet est capable de prendre le recul nécessaire (de mener le raisonnement et de faire le calcul) dans la « vie courante » lorsqu’on présente des chiffres ? Encore une fois, je rappelle que ce ne sont que 2 taux : il n’y a rien de compliqué, même pas une moyenne !
 
Si l’on ne prend pas conscience que la fourniture de données chiffrées imposent des explications (origine, obtention, signification, algorithme de calcul, validation, …), on est fatalement dans l’erreur. Cette prise de conscience devrait notamment toucher les journalistes afin qu’ils ne publient pas des chiffres en dehors de tout contexte.

par thidgr publié dans : Statistique
ajouter un commentaire commentaires (0)    créer un trackback recommander
Jeudi 27 décembre 2007
Le texte comporte peu de mot, il y a 2 phrases qui s’opposent. L’opposition se matérialise par le « mais » (strictement, ce n’est pas nécessairement une opposition, cela peut être une simple restriction).
Vouloir s’oppose à devoir (droit et devoir).
Le futur s’oppose au présent. De façon stricte c’est le passé (le passé simple même) qui s’oppose au futur. Le choix du présent est donc discutable.
Le visuel permet de voir rosse + cocher et boussole + pied. Le fait d’imaginer que le piéton soit une rosse est possible mais que serait alors le cocher ? Max a confirmé que les 2 protagonistes se croisaient, c'est-à-dire qu’ils allaient en sens inverse.
L’un va à pied, l’autre est « voituré ».
L’un va au sud et l’autre va au nord.
 
Voilà pour l’idée de l’opposition en 780. Il serait logique que cette opposition renvoie à une ou plusieurs oppositions qui cadrent la solution de 780. Une opposition c’est schématiquement A <-> B. la flèche est l’axe. A et B sont en opposition (en gros le contraire l’un de l’autre, au moins dans l’optique de cet axe). Résoudre 780 se serait trouvé A, B et l’axe (une ou plusieurs fois). C’est ce que j’ai beaucoup cherché à faire sans succès.
 
Autre possibilité.
« Premier pas » pourrait être la première opposition. Dans ce cas l’idée à retenir serait l’idée de l’opposition. 780 serait le premier cas. Cela signifie que cette notion d’opposition se retrouve dans des énigmes suivantes. Même plus, ce devrait être le cas de toutes les énigmes suivantes.
Dès lors 780 serait résolu.
Rosse, cocher, boussole pied ne servirait alors que pour faire l’association avec le visuel. C’est un peu maigre.
 
Ce que je sais de 470 cadre avec cette idée. Par contre, cela ne marche pour 580.
 
Options
1 Chaque énigme offrirait 2 « solutions ». L’une des deux pourrait être une fausse piste. Ou bien, les 2 seraient valables mais interviendraient à des moments différents (premier passage puis « reliquat »).
2 L’opposition fonctionnerait par couple d’énigmes. Dans ce cas 580 serait à opposer à 470. C’est la même idée que l’opposition des énigmes dans B.

par thidgr publié dans : Chouette d'or
ajouter un commentaire commentaires (0)    créer un trackback recommander
Mercredi 26 décembre 2007
J’avoue, je suis abonné de Télérama. Pire, je lis essentiellement le courrier des lecteurs. J’ai vu une fois une lettre (publiée dans Télérama) qui disait pareil. Je ne suis donc pas le seul atteint par cette « épistophilie ».
 
Il n’y a pas que Télérama. Sur les sites (blogs ou d’information), je suis plutôt intéressé par les commentaires. Il est vrai que parfois cela ne vole pas haut. A l’inverse, il arrive parfois que les commentaires soient plus pertinents que l’article de départ. Amateur ou Professionnel, ce n’est donc pas l’aspect important.
 
Si j’en reviens à Télérama, le choix des lettres publiées est évidemment un choix éditorial. De plus, seule une partie de la lettre est publiée. Sur internet, il y a peu de censure. Du coup, on doit se payer beaucoup de déchets. Mais là, on peut sentir le pouls du « peuple » (enfin, la fraction du public qui écrit).
 
 
Essayez le site du télépgaph http://www.telegraph.co.uk/. Une plongée (biaisée) dans l’Angleterre. Shocking, isn’t it ?
par thidgr publié dans : Media
ajouter un commentaire commentaires (0)    créer un trackback recommander
Lundi 24 décembre 2007
Etonnamment, une unité de « consommation » est apparue et tend à supplanter le bon vieux « litre au 100 km » (C1). Il s’agit bien sûr du g de CO2 au km (C2). 
 
On peut reconnaître que cela homogénéise les différents types de carburant. En effet, le GPL par exemple est moins dense que l’essence et présente une consommation en « litre au 100 km » plus élevé.
 
Pour un carburant donné, il y a une forte corrélation entre les 2 chiffres C1 et C2.
Pour un moteur diesel, le gasoil est un mélange de longue chaîne carbonée (CH2)n (masse 14n) de densité d’environ 850 g/l. « Un » « CH2 » donne « un » CO2 (masse 44g). Donc un litre, soit 850 g produit 44 * 850 / 14 = 2670 g de CO2. Pour ce type de carburant C2 = 26,7 * C1. Une consommation courante de 7 litres au 100 km donne 187 g/km.
Pour l’essence, la formule chimique et la densité sont grossièrement les mêmes, on a donc la même formule.
 
Il semble que la Prius soit annoncé à 105 g/km. Soit 4 l/100 km. Comme d’habitude, ces chiffres sont en dehors de la réalité. Ils proviennent d’une mesure « en laboratoire » (C’est vrai pour toutes les voitures). Il faut savoir que notamment, en laboratoire, la voiture ne « bouge » pas. Les caractéristiques aérodynamiques ne sont donc pas prises en compte.
Il n’est pas facile de trouver des informations sur le cycle standardisé de « comment se fait la mesure ».
www.inrets.fr/ur/lte/publications/publications-pdf/Joumard/these_Bourdeau.pdf. Les vitesses moyennes (18 et 60 km/h) expliquent en partie pourquoi la consommation mesurée est moindre que la « nôtre ».
Ces cycles très courts sont une aubaine pour la Prius. Elle peut en faire une partie sur sa réserve d’énergie électrique. Il est possible pour elle de « tricher » (moins d’énergie dans les batteries après le test qu’avant).  Je retiens les 5,2l/100 km « constatés » de mon site fétiche. Ce n’est déjà pas si mal. Mais 5,2 l/100 km c’est 139 g/km et là, il n’y a plus de prime.
 
Par ailleurs, il est toujours étonnant que l’Allemagne qui est présentée comme « verte » (abandon du nucléaire, les éoliennes,…) soit l’origine de critique sur la taxe sur l’émission de CO2 (parce que les grosses allemandes en émettent plus). Le vert, c’est jamais noir et blanc.

par thidgr publié dans : Calculs de coin de tableur
ajouter un commentaire commentaires (0)    créer un trackback recommander

Présentation

Recherche

Calendrier

Décembre 2007
L M M J V S D
          1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31            
<< < > >>

W3C

  • Feed RSS 2.0
  • Feed ATOM 1.0
  • Feed RSS 2.0
mettre des photos en ligne sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur avec TF1 Network - Signaler un abus