Lundi 14 janvier 2008
L’étude suivante traite de l’évolution du climat en France au XXème siècle. http://www.smf.asso.fr/Ressources/Moisselin38.pdf. Elle date de 2002 !
 
Il ne semble pas qu’il y ait une quelque chose de comparable auparavant. Elle se concentre sur 2 paramètres : la température (70 séries) et les précipitations (220 séries).
 
La méthode utilise les données prises par les stations au sol, en pratiquant une homogénéisation pour construire des séries longues. C’est cette partie de la méthode que je voudrais examiner. Ce sera plus particulièrement le cas de la température.
 
1 Tout d’abord il y des corrections dues au capteur.
2 Ensuite il y un mécanisme de détection de rupture et d’homogénisation pour aboutir à ces 70 séries. Ce mécanisme est réitéré.
3 Ensuite, ces séries permettent de donner une évolution (tendance et coefficient de Spearman) pour ce point.
4 Enfin, la donnée de ces 70 indicateurs permet de construire une carte d’évolution pour la France.
 
1 La correction de capteur évoque un biais pour le modèle 1896. Il est corrigé de -2 degrés ! Donc les températures de 1896 sont corrigés de -2. Il ne semble pas étonnant qu’on constate une augmentation depuis 1896 ! Je n’ai pas trouvé l’étude de G Lefebvre de 1999 qui justifie cela. C’est tout de même fort !
2 Le mécanisme de détection de rupture et homogénisation n’est pas clair. Qu’est-ce que c’est que ces tripatouillages ? Cela semble construit sur les mesures faites « à proximité ». C’est donc que l’on suppose que la température à proximité est valable et qu’elle n’a pas elle à être corrigé.
3 Rien à dire pour l’estimation de tendance
4 L’extrapolation des 70 poins de mesure à la France est raisonnable encore que l’on puisse s’interroger sur sa signification : on suppose que si on avait les données pour un point du territoire, l’évolution constatée serait celle donnée par extrapolation. C’est douteux.
 
Cette démarche me semble étrange. Pourquoi ne pas garder telle quelle la totalité des mesures brutes sans bidouillage ? On pourrait étendre les données spatiales manquantes (selon un maillage « raisonnable ») par approximation linéaire. C’est en gros ce qui est fait aux points 2 et 4. On peut même effectuer cela de façon quotidienne et calculer ensuite la moyenne. Cette façon de faire serait plus compréhensible. Elle fait moins « bidouille ».
On pourrait examiner la sensibilité de la démarche à la taille du maillage.
 
La différence entre les deux démarches est donc : vaut il mieux unifier des séries pour trouver des tendances et les extrapoler dans l’espace (quite à « bidouiller » un peu) ou bien extrapoler une grandeur dans l’espace et dégager la tendance sur cela.
Cas 1 : Les données sont réduites pour construire 70 séries de 1200 mois. On en tire 70 tendances tendance qu’on généralise à tout le territoire.
Cas 2 : On a tout un tas de données qui nous permettent de construire par extrapolation spatiale une matrice à 100 000 points (par exemple) et 36500 jours : 36,5 millions de données. On en tire 100 000 tendances dont on peut faire la carte et visualiser des tendances régionales.
Je cale un peu en science statistique pour trancher quelle est la meilleure méthode. Intuitivement, il me semble que la seconde est préférable : on garde plus longtemps la complexité de l’information (puisqu’on synthétise qu’au dernier moment). Mais en matière statistique je sais qu’il faut se méfier de l’intuition. Peut être que les 2 démarches sont équivalentes (j’ai des doutes à cause de la manipulation d’homogénisation).
En tout cas, je suis étonné qu’il n’y ait aucune référence statistique pour justifier la démarche.
 
 
 
J’aime bien la partie sur les précipitations. Alors que les chiffres montrent une augmentation des précipitations, l’étude parvient à laisser entendre une tendance à l’aridité. Tout cela grâce au coefficient de Martonne (543 entrées sur google et pas tous sur le Martonne en question : c’est donc un outil assez confidentiel). C’est vrai, on n’allait tout de même pas aller à l’encontre du discours de « sécheresse » en annonçant qu’il y avait eu une augmentation des précipitations ! On peut remarquer comment disparaît les augmentations significatives de précipitation de la haute vienne. « Puisqu’on vous le dit  » : il faut s’attendre à la sécheresse !
 
La description du cas de Paris Montsouris me laisse « hyper perplexe ». Nier qu’il fait plus chaud à Paris intra muros plutôt qu’en banlieue et dans la compagne environnante est très fort. Des dizaines de milliers de gens le constate tous les jours. C’est vrai en toute saison, mais plus marqué en hiver. L’écart peut être estimé « au pif » entre 1 et 6 degrés.
Et bien rien de tous cela n’apparaît. Il est évoqué une amplitude que la rupture est de 0,22 C ! L’augmentation est de 0,77C sur le siècle (plutôt moins que les environs). A moins que l’effet de chaleur de l’ilôt urbain parisien n’existât déjà en 1900, l’augmentation aurait dû être au moins de 2 C (1 degré de plus que le reste) ! J’en déduis qu’il y a eu un refroidissement de la région parisienne de 1 C depuis 1900 !
 
Toujours à propos des ilôts de chaleur, la carte des 70 points des séries ne précise pas leur localisation. Combien sont en environnement urbain ?
 
Un dernier point concerne l’absence de disponibilité des données sources (les mesures des stations météo). Il est impossible des les vérifier ou de refaire le calcul (après tout, tout le monde peut se tromper). Il est vrai que ces données ont représentées du travail pour leur récupération et qu’ils ont donc « un coût ».  Mais il est vrai aussi que MétéoFrance fonctionne pour partie sur fonds publics. Comme souvent, c’est « faites moi confiance ».
 
Bref, pour ce qui est de la France, l’affirmation déclamée à tour de bras d’une augmentation me parait discutable. On peut aussi se demander ce qui permettait de le dire avant 2002 : la divination ?
par thidgr publié dans : Statistique
ajouter un commentaire commentaires (0)    créer un trackback recommander
Mercredi 9 janvier 2008
Il m’est arrivé de lire des prospectus pour de produits financiers (OPCVM par exemple). Généralement, on trouve des courbes d’évolution de la valeur du produit. Il est étonnant de voir comment est présenté le graphe. A supposer que l’on adopte une « courbe », le « marketeur » dispose de plusieurs paramètres : Echelles linéaires ou logarithmiques, valeur moyenne ou extrême, durée de calcul de la moyenne, ... et surtout la date de « départ ».
 
Je quitte le monde financier pour les données climatiques. On trouve une source de données globales sur la température du globe (par satellite, cela me semble plus pertinent qu’une moyenne de mesure au sol) ici http://www.remss.com/msu/msu_data_description.html.
On s’intéressera plus particulièrement à TLT (temperature lower troposphere). Le graphe montre une augmentation depuis 1980 (0,176K/decade).
 
Les mêmes données utilisées différemment ici : http://denerding.blogspot.com/2007/12/global-warming-earth-cooled-005c-in.html.
Depuis 1997, cela montre une baisse de 0,05K/decade.
 
Pourquoi l’une des tendances serait elle plus pertinente qu’une autre ?
 
On remarque que le pic de 1998 n’est pas anodin (c’est lui qui tend à la baisse dans la seconde vision et à la hausse dans la première). A partir de 2018, il sera dans la première moitié et il participera à la baisse aussi dans le premier cas.
 
On a là une structure qui me semble fractale.
 
Finalement, ce qui est en jeu c’est la signification de la régression linéaire. Faire cela c’est supposer qu’il existe une tendance de fond constante (pour la valeur considérée). Cela fournie la droite. Ajouter à cela, on admet qu’il existe des variations (un bruit) de moyenne nulle.
Si cette hypothèse est exacte, la droite « fixe » ne doit pas varier lorsqu’on change de bornes. Sur cet exemple, ce n’est pas le cas. On peut donc en déduire que soit l’hypothèse n’est pas bonne (il n’existe pas de tendance) soit la tendance est à calculer sur une plus grande période. Donc, les deux interprétations sont fallacieuses.
 
Pour ce qui est de la température terrestre, il me semble qu’il n’existe pas de tendance. Elle varie du fait de nombreux facteurs. Il y a sans doute une (voire plusieurs) composante périodique ou pseudo périodique. Une analyse de fourrier serait déjà plus pertinente. Mais c’est moins facile à mettre en œuvre qu’une simple régression linéaire.
 
Dans l’article de wikipédia sur les lois de probabilités http://fr.wikipedia.org/wiki/Loi_de_probabilit%C3%A9, il est question du « maximum d’entropie ». Si la structure est « fractale », il faudrait peut être tenter les « lois scalantes » (Zipf, mandelbrot) à un cadre adéquat. A approfondir…

 

par thidgr publié dans : Statistique
ajouter un commentaire commentaires (0)    créer un trackback recommander
Lundi 7 janvier 2008

Les « macro chiffrages » portent sur un vaste ensemble. Une caractéristique de ce « vaste ensemble » est de savoir s’il concerne uniquement le passé ou non. Je vais maintenant examiner le second cas.

 
Dans le sujet analysé, il y autre chose que des faits ou événements passés. Ce sont des éléments futurs ou « idéaux ». Prenons le temps de les considérer.
Il y a les événements incertains (atemporels). Ce sont des événements qui vont peut être se produire dans le futur ou peut être pas. Ce sont aussi des événements qui se sont peut être produits dans le passé ou peut être pas. Le big bang, les extraterrestres, les supercordes,…
Il y a des événements futurs dont la réalisation est certaine mais dont les caractéristiques sont indéterminés. Il y aura une température mondiale moyenne en 2100 mais quelle sera sa valeur ? Ce sont généralement des prolongements du passé.
 
Dans ce cas, la notion de statistique devrait s’effacer. En effet, on ne saurait compter des choses qui ne se sont pas produits ou qui sont essentiellement incertains. C’est la notion de probabilité qui devrait prendre la relève.
Il se trouve que l’outillage mathématique est très proche.
D’autre part, pour les « prolongements du passé », il existe un grande tentation de réutilisation les outils statistiques du passé pour « prédire l’avenir ». Rien de condamnable en cela. Toutefois, il faudrait bien différencier les 2. Combien de fois présente-t-on sur la même courbe de chiffres du passé et du futur sans aucun avertissement. C’est d’autant plus important que souvent la différence passé/futur ne correspond pas à la date de lecture mais souvent un an plus tôt. D’autre part, l’erreur des chiffres n’est pas de même nature. Pour le passé, ce sont des erreurs pour obtenir les données qui priment. Pour le futur, on est face à une prédiction qui implique un modèle (même sous-entendu) : l’erreur provient essentiellement du modèle. Sauf de rares exceptions, les modèles prédictifs sont très lacunaires.
Finalement, cette prétention à fournir des prévisions est très suspecte. La suspicion porte sur la « sincérité » des chiffres du passé. C’est flagrant pour les résultats d’entreprise. Dans quelle mesure la fidélité au prévision ne concourre-t-il pas au «toilettage » du résultat de l’année passée ?
 
Cette confusion passé/futur est très généralisée.
 
Lorsque l’on dit qu’il reste pour 50 ans de pétrole en consommation 2006, c’est une estimation actuelle (du passé, les réserves de pétrole). L’unité est étrange : « 50 ans… » au lieu de « X milliard de tonnes ». Cette estimation est aussi très imprécise.
par thidgr publié dans : Statistique
ajouter un commentaire commentaires (0)    créer un trackback recommander
Lundi 31 décembre 2007

Ces sujets évoquent des données chiffrées. Ces données chiffrées fournissent de l’information sur un « vaste ensemble ».
Il faut tout d’abord répéter que « la carte n’est pas le territoire ». Aussi précises et « exhaustives » ces données soient elles, ce n’est qu’une projection. En pratique, les données sont très partielles, et la connaissance de l’ensemble est largement lacunaire.
 
J’ai évoqué dans un flou volontaire l’objet de ces chiffres : « un vaste ensemble ».
L’une des premières difficultés que l’on rencontre et de savoir si l’ensemble en question est « précisément défini » ou non. Prenons par exemple l’ensemble des participants à une manifestation. Il est sans doute borné (c'est-à-dire que l’on peut trouver un sur ensemble fini le contenant). Par contre, la détermination de la participation ou non à une manifestation est sans doute délicate : entre les « clairement participants » et les « clairement non participants », il y a une zone frontière.
Cette situation se retrouve fréquemment. Si cette zone frontière n’est pas d’importance « marginale », il est clair que le chiffrage ne peut être qu’en ordre de grandeur. C'est-à-dire que les fournisseurs de ces chiffres doivent abandonner tout prétention de précision.
Si la zone frontière est «d’importance marginale », elle est une première source d’imprécision dont il faut avoir conscience.
 
Un deuxième caractéristique de ce « vaste ensemble » est de savoir s’il concerne uniquement le passé ou non. Je vais examiner ici le premier cas.
S’il concerne uniquement le passé, la « définition de l’ensemble » est (en théorie) fixe. Le nombre d’être humain ayant vécu, le temps passé depuis le big bang, le déficit de l’état français en 2005, le nombre d’habitant en France en 2005, le nombre de but marqué par Maradona en match officiel, etc. Il est nécessaire d’avoir des « archives » sur cet ensemble afin de pouvoir « compter ». L’action de compter qui parait simple est susceptible d’erreur.
Rappelons les principes du comptage (ce sont ceux de l’arithmétique) : individualiser les éléments comptés, les éléments sont non marqués au départ, partir d’un compteur à zéro, passer en revue un à un les éléments (choisir un élément non marqué, faire + 1 dans le compteur et marquer l’élément choisi), s’arrêter lorsque l’on ne trouve plus d’élément non marqué.  Et bien tout cela devient très difficile lorsque le nombre d’élément à compter est important. Le marquage n’est pas simple à pratiquer. En conséquence, le fait de ne pas compter plusieurs fois le même élément est délicat. Enfin, savoir si l’on a tout compté ou pas est un vrai problème.
En pratique, le comptage ne se fait sur les éléments « réels » mais sur des informations tirées de ces éléments : c’est un travail documentaire. C'est-à-dire que l’on passe de « l’élément réel » à une représentation partielle de celui-ci. Cette saisie de donnée peut être source d’erreur. Qui plus est, la projection de l’élément réel sur une « fiche » de donnée peut « coincer ». On ne prend en compte que les éléments de la fiche, et on ignore donc d’autres caractéristiques. Si la fiche est à choix fermé, faire « entrer l’élément réel » dans la fiche peut être une approximation abusive. Enregistrer ces données c’est un travail de mesure : or la prise de mesure est une activité coûteuse. On peut être tenté d’alléger ce coût en « faisant vite ».
On peut tenter de pallier ces problèmes en échantillonnant. Ceci peut se faire pour mesurer la qualité des données obtenues. Ceci peut aussi se faire sur la prise des données : on n’enregistre qu’un petite partie de l’ensemble. L’échantillonnage suppose une certaine homogénéité de l’ensemble et qu’il n’y a pas de biais. Selon certaines hypothèses sur le résultat (loi normale), la taille de l’échantillon fournit le degré de fiabilité de la pratique. On oublie généralement ces hypothèses.
L’obtention des données est sans doute l’étape la plus fragile du processus. Il y a ensuite une étape de « prise en compte informatique ». C’est une étape technique sur laquelle des fraudes ou erreurs peuvent être commises. Enfin, il y a l’étape de restitution. C'est-à-dire qu’il s’agit de réduire la masse considérable d’informations détaillées (illisible) en un petit nombre de chiffres de synthèses dit « statistiques ». Nous sommes ici dans un cadre qui utilise un outil mathématique mature. Par contre, l’objectivité de cet outil n’empêche pas une manipulation selon l’intention de celui qui opère.
La manipulation intervient par exemple par le choix des dates de départ et de fin pour les évolutions temporelles. C’est notamment le cas des courbes de performances des OPCVM. On trouve aussi le choix des critères de regroupement, des comparaisons.
 
par thidgr publié dans : Statistique
ajouter un commentaire commentaires (0)    créer un trackback recommander
Vendredi 28 décembre 2007
Lorsque j’ai créé cette catégorie « Statistique », j’avais en tête un article paru dans la revue « La recherche Hors série ». Il s’agit du numéro 13 d’octobre-décembre 2003.
 
Je vais citer un exemple de la page 60 « du bon usage des statistiques » (Ulrich Hoffrage, Ralph Hertwig, Gerd Gigrenzer et Samuel Lindsey).
 
« Etant donné une maladie dont la prévalence (nombre de cas dans une population sans distinction des cas nouveaux et anciens) et de 1/1000 et pour laquelle il existe un test de dépistage donnant 5% de faux positifs, quel est le risque qu’une personne dont le test est positif soit effectivement malade (on ne sait rien d’autre de cette personne). »
 
Comme vous êtes prévenus, vous allez sans doute cogiter et ne pas répondre « 95% » comme la plupart des gens (donné par 27 étudiants en faculté de médecine sur 60).
 
 
 
 
 
Alors la bonne valeur ?
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Sur 1000 personnes, il n’y a un malade (vrai positif) et 50 faux positifs. Il y aura donc 1 malade sur 51 positifs soit 2% (la décimale est illusoire à ce niveau de précision). La réponse a été donnée par 11 étudiants sur 60.
 
Je trouve l’exemple frappant en ce qui concerne la signification des statistiques. En effet, il est simple : il n’y a que 2 « taux ». « Tout le monde » sait ce qu’est un taux.
Les valeurs de ces taux ne sont pas aberrantes (bien que 5% de faux positif puisse sembler un peu élevé). La prévalence est « raisonnable ».
Pourtant, le fait de n’avoir qu’une probabilité de 2% d’être malade lorsqu’on est positif est ridiculement faible. Tellement faible que cela en est choquant.
J’aimerai savoir ce que signifie « être positif » pour les contrôles anti-dopage. Quel est le taux de « faux positif » ? Est-il aussi faible ?
 
On pourrait croire que le fait d’être positif entraîne « presque à coup sûr » le fait d’être malade. Ce n’est pas le cas dans cet exemple.
Pire, le résultat va à l’encontre ce que « l’on croit savoir ». Qui en effet est capable de prendre le recul nécessaire (de mener le raisonnement et de faire le calcul) dans la « vie courante » lorsqu’on présente des chiffres ? Encore une fois, je rappelle que ce ne sont que 2 taux : il n’y a rien de compliqué, même pas une moyenne !
 
Si l’on ne prend pas conscience que la fourniture de données chiffrées imposent des explications (origine, obtention, signification, algorithme de calcul, validation, …), on est fatalement dans l’erreur. Cette prise de conscience devrait notamment toucher les journalistes afin qu’ils ne publient pas des chiffres en dehors de tout contexte.

par thidgr publié dans : Statistique
ajouter un commentaire commentaires (0)    créer un trackback recommander

Présentation

Recherche

Calendrier

Juillet 2008
L M M J V S D
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31      
<< < > >>

W3C

  • Feed RSS 2.0
  • Feed ATOM 1.0
  • Feed RSS 2.0
Blog : Gastronomie sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur avec TF1 Network - Signaler un abus