Overblog
Suivre ce blog Administration + Créer mon blog
15 novembre 2008 6 15 /11 /novembre /2008 14:07

Je ne suis pas particulièrement casse cou. D’aucuns qui me connaissent me jugeraient peut être plutôt timoré. Pourtant, la notion de « principe de précaution » m’énerve. Je vais examiner cet énervement.

 

Qu’il faille prendre des précautions, soit. En faire un Principe avec un grand P, c’est choquant. Il y a des tas de comportement souhaitables (juste, sincère, honnête, économe, prévoyant, courageux,…) : pourquoi mettre en exergue la « prise de précaution » ?

Si l’on prend le principe de loin, il se comprend comme suit : « ne rien faire qui soit risqué ». C’est sans doute comme cela que le plus grand nombre le comprend. C’est alors dramatique. En effet, tout est risqué : Il ne faut donc plus rien faire (mais c’est aussi risqué). Donc, il faut disparaître.

 

Bon, d’accord, le principe n’est pas aussi absurde. Voici l’énoncé que j’ai trouvé sur wikipédia : "l'absence de certitudes, compte tenu des connaissances scientifiques et techniques du moment, ne doit pas retarder l'adoption de mesures effectives et proportionnées visant à prévenir un risque de dommages graves et irréversibles [...] à un coût économiquement acceptable".

L’analyse de cet énoncé révèle un concept frappant : l’élément fondamental est que ce principe traite des risques dont on n’est pas certain. Il ne dit rien des risques « connus » ! Que faut-il faire pour ceux là ? Il parait qu’ils relèvent de la « prévention ». On va supposer qu’il faut le niveau de prévention est au moins aussi haut que celui de précaution. Par contre, étant donné que rien n’est dit à leur sujet, on ne va pas en demander plus. Par exemple, le tabac génère un risque qui fait partie de la catégorie « connu ». La prévention du tabac existe mais elle n’est qu’incitative. On admet (en France) de l’ordre de 100 000 morts par an du fait du tabac. Si on s’en sert comme «référence », le principe de précaution, ne va pas interdire grand-chose !

Partager cet article
Repost0
1 août 2008 5 01 /08 /août /2008 15:36

Quelle différence entre probabilité et statistique ?

 

Je vais prendre l’exemple du tirage d’un dé à 6 faces.

 

Dans un premier temps je procède à X (X grand) tirage et je note les résultats. Je peux procéder à une analyse statistique de ces résultats. Par exemple, la proportion de chaque valeur i (de 1 à 6). On remarque que d’autres analyse statistiques peuvent être faites (la moyenne des valeurs tirées, la répartition dans le temps,…). Ce qui est en jeu est de réduire la série des X tirages en un petit nombre de « grandeur » qui décrivent « relativement » bien cette série (cette série-là).

 

Si le dé n’est pas pipé et si X est suffisamment grand, les proportions Pi sont chacune très proches de 1/6. C’est un constat.

 

Une autre approche du problème est de considérer l’objet « théorique » « le dé ». Il a 6 faces. A chaque tirage, il désigne une face. Le dé est symétrique. Là on utilise un principe qui a ma connaissance n’a pas de nom : il permet de postuler l’équiprobabilité de chaque tirage (donc 1/6). Ce principe est lié à l’homogénéité et à la relativité. On peut considérer le tirage en 3 étapes. 1/ le dé roule et s’arrête. 2/ On choisit aléatoirement une étiquette de face. 3/ On plaque l’étiquette sur le face du haut. Du point de vue des probabilités, on voit que l’on s’affranchit du « monde physique » : il faut procéder à un tirage aléatoire. On est dans le monde des probabilités. Avant tout tirage on peut estimer celui-ci.

 

Il est clair que la rencontre des 2 univers est importante.

Dans le cas du dé, la réalisation de la série de tirage permettra de vérifier la loi de probabilité :  et de savoir si le dé est pipé ou non.

Connaissant un première série de tirage X, on peut imagine la loi de probabilité correspondante (intéressant si le dé est pipé par exemple). Les tirages successifs permettront d’affiner.

 

Il me semble que la limite qui « saute » aux yeux est la nécessité d’avoir un « grand nombre » de tirage. Comment approcher des « événements rares » voir unique.

Quelle est la probabilité du big bang ?

Partager cet article
Repost0
14 janvier 2008 1 14 /01 /janvier /2008 10:21
L’étude suivante traite de l’évolution du climat en France au XXème siècle. http://www.smf.asso.fr/Ressources/Moisselin38.pdf. Elle date de 2002 !
 
Il ne semble pas qu’il y ait une quelque chose de comparable auparavant. Elle se concentre sur 2 paramètres : la température (70 séries) et les précipitations (220 séries).
 
La méthode utilise les données prises par les stations au sol, en pratiquant une homogénéisation pour construire des séries longues. C’est cette partie de la méthode que je voudrais examiner. Ce sera plus particulièrement le cas de la température.
 
1 Tout d’abord il y des corrections dues au capteur.
2 Ensuite il y un mécanisme de détection de rupture et d’homogénisation pour aboutir à ces 70 séries. Ce mécanisme est réitéré.
3 Ensuite, ces séries permettent de donner une évolution (tendance et coefficient de Spearman) pour ce point.
4 Enfin, la donnée de ces 70 indicateurs permet de construire une carte d’évolution pour la France.
 
1 La correction de capteur évoque un biais pour le modèle 1896. Il est corrigé de -2 degrés ! Donc les températures de 1896 sont corrigés de -2. Il ne semble pas étonnant qu’on constate une augmentation depuis 1896 ! Je n’ai pas trouvé l’étude de G Lefebvre de 1999 qui justifie cela. C’est tout de même fort !
2 Le mécanisme de détection de rupture et homogénisation n’est pas clair. Qu’est-ce que c’est que ces tripatouillages ? Cela semble construit sur les mesures faites « à proximité ». C’est donc que l’on suppose que la température à proximité est valable et qu’elle n’a pas elle à être corrigé.
3 Rien à dire pour l’estimation de tendance
4 L’extrapolation des 70 poins de mesure à la France est raisonnable encore que l’on puisse s’interroger sur sa signification : on suppose que si on avait les données pour un point du territoire, l’évolution constatée serait celle donnée par extrapolation. C’est douteux.
 
Cette démarche me semble étrange. Pourquoi ne pas garder telle quelle la totalité des mesures brutes sans bidouillage ? On pourrait étendre les données spatiales manquantes (selon un maillage « raisonnable ») par approximation linéaire. C’est en gros ce qui est fait aux points 2 et 4. On peut même effectuer cela de façon quotidienne et calculer ensuite la moyenne. Cette façon de faire serait plus compréhensible. Elle fait moins « bidouille ».
On pourrait examiner la sensibilité de la démarche à la taille du maillage.
 
La différence entre les deux démarches est donc : vaut il mieux unifier des séries pour trouver des tendances et les extrapoler dans l’espace (quite à « bidouiller » un peu) ou bien extrapoler une grandeur dans l’espace et dégager la tendance sur cela.
Cas 1 : Les données sont réduites pour construire 70 séries de 1200 mois. On en tire 70 tendances tendance qu’on généralise à tout le territoire.
Cas 2 : On a tout un tas de données qui nous permettent de construire par extrapolation spatiale une matrice à 100 000 points (par exemple) et 36500 jours : 36,5 millions de données. On en tire 100 000 tendances dont on peut faire la carte et visualiser des tendances régionales.
Je cale un peu en science statistique pour trancher quelle est la meilleure méthode. Intuitivement, il me semble que la seconde est préférable : on garde plus longtemps la complexité de l’information (puisqu’on synthétise qu’au dernier moment). Mais en matière statistique je sais qu’il faut se méfier de l’intuition. Peut être que les 2 démarches sont équivalentes (j’ai des doutes à cause de la manipulation d’homogénisation).
En tout cas, je suis étonné qu’il n’y ait aucune référence statistique pour justifier la démarche.
 
 
 
J’aime bien la partie sur les précipitations. Alors que les chiffres montrent une augmentation des précipitations, l’étude parvient à laisser entendre une tendance à l’aridité. Tout cela grâce au coefficient de Martonne (543 entrées sur google et pas tous sur le Martonne en question : c’est donc un outil assez confidentiel). C’est vrai, on n’allait tout de même pas aller à l’encontre du discours de « sécheresse » en annonçant qu’il y avait eu une augmentation des précipitations ! On peut remarquer comment disparaît les augmentations significatives de précipitation de la haute vienne. « Puisqu’on vous le dit  » : il faut s’attendre à la sécheresse !
 
La description du cas de Paris Montsouris me laisse « hyper perplexe ». Nier qu’il fait plus chaud à Paris intra muros plutôt qu’en banlieue et dans la compagne environnante est très fort. Des dizaines de milliers de gens le constate tous les jours. C’est vrai en toute saison, mais plus marqué en hiver. L’écart peut être estimé « au pif » entre 1 et 6 degrés.
Et bien rien de tous cela n’apparaît. Il est évoqué une amplitude que la rupture est de 0,22 C ! L’augmentation est de 0,77C sur le siècle (plutôt moins que les environs). A moins que l’effet de chaleur de l’ilôt urbain parisien n’existât déjà en 1900, l’augmentation aurait dû être au moins de 2 C (1 degré de plus que le reste) ! J’en déduis qu’il y a eu un refroidissement de la région parisienne de 1 C depuis 1900 !
 
Toujours à propos des ilôts de chaleur, la carte des 70 points des séries ne précise pas leur localisation. Combien sont en environnement urbain ?
 
Un dernier point concerne l’absence de disponibilité des données sources (les mesures des stations météo). Il est impossible des les vérifier ou de refaire le calcul (après tout, tout le monde peut se tromper). Il est vrai que ces données ont représentées du travail pour leur récupération et qu’ils ont donc « un coût ».  Mais il est vrai aussi que MétéoFrance fonctionne pour partie sur fonds publics. Comme souvent, c’est « faites moi confiance ».
 
Bref, pour ce qui est de la France, l’affirmation déclamée à tour de bras d’une augmentation me parait discutable. On peut aussi se demander ce qui permettait de le dire avant 2002 : la divination ?
Partager cet article
Repost0
9 janvier 2008 3 09 /01 /janvier /2008 10:16
Il m’est arrivé de lire des prospectus pour de produits financiers (OPCVM par exemple). Généralement, on trouve des courbes d’évolution de la valeur du produit. Il est étonnant de voir comment est présenté le graphe. A supposer que l’on adopte une « courbe », le « marketeur » dispose de plusieurs paramètres : Echelles linéaires ou logarithmiques, valeur moyenne ou extrême, durée de calcul de la moyenne, ... et surtout la date de « départ ».
 
Je quitte le monde financier pour les données climatiques. On trouve une source de données globales sur la température du globe (par satellite, cela me semble plus pertinent qu’une moyenne de mesure au sol) ici http://www.remss.com/msu/msu_data_description.html.
On s’intéressera plus particulièrement à TLT (temperature lower troposphere). Le graphe montre une augmentation depuis 1980 (0,176K/decade).
 
Les mêmes données utilisées différemment ici : http://denerding.blogspot.com/2007/12/global-warming-earth-cooled-005c-in.html.
Depuis 1997, cela montre une baisse de 0,05K/decade.
 
Pourquoi l’une des tendances serait elle plus pertinente qu’une autre ?
 
On remarque que le pic de 1998 n’est pas anodin (c’est lui qui tend à la baisse dans la seconde vision et à la hausse dans la première). A partir de 2018, il sera dans la première moitié et il participera à la baisse aussi dans le premier cas.
 
On a là une structure qui me semble fractale.
 
Finalement, ce qui est en jeu c’est la signification de la régression linéaire. Faire cela c’est supposer qu’il existe une tendance de fond constante (pour la valeur considérée). Cela fournie la droite. Ajouter à cela, on admet qu’il existe des variations (un bruit) de moyenne nulle.
Si cette hypothèse est exacte, la droite « fixe » ne doit pas varier lorsqu’on change de bornes. Sur cet exemple, ce n’est pas le cas. On peut donc en déduire que soit l’hypothèse n’est pas bonne (il n’existe pas de tendance) soit la tendance est à calculer sur une plus grande période. Donc, les deux interprétations sont fallacieuses.
 
Pour ce qui est de la température terrestre, il me semble qu’il n’existe pas de tendance. Elle varie du fait de nombreux facteurs. Il y a sans doute une (voire plusieurs) composante périodique ou pseudo périodique. Une analyse de fourrier serait déjà plus pertinente. Mais c’est moins facile à mettre en œuvre qu’une simple régression linéaire.
 
Dans l’article de wikipédia sur les lois de probabilités http://fr.wikipedia.org/wiki/Loi_de_probabilit%C3%A9, il est question du « maximum d’entropie ». Si la structure est « fractale », il faudrait peut être tenter les « lois scalantes » (Zipf, mandelbrot) à un cadre adéquat. A approfondir…

 

Partager cet article
Repost0
7 janvier 2008 1 07 /01 /janvier /2008 14:08

Les « macro chiffrages » portent sur un vaste ensemble. Une caractéristique de ce « vaste ensemble » est de savoir s’il concerne uniquement le passé ou non. Je vais maintenant examiner le second cas.

 
Dans le sujet analysé, il y autre chose que des faits ou événements passés. Ce sont des éléments futurs ou « idéaux ». Prenons le temps de les considérer.
Il y a les événements incertains (atemporels). Ce sont des événements qui vont peut être se produire dans le futur ou peut être pas. Ce sont aussi des événements qui se sont peut être produits dans le passé ou peut être pas. Le big bang, les extraterrestres, les supercordes,…
Il y a des événements futurs dont la réalisation est certaine mais dont les caractéristiques sont indéterminés. Il y aura une température mondiale moyenne en 2100 mais quelle sera sa valeur ? Ce sont généralement des prolongements du passé.
 
Dans ce cas, la notion de statistique devrait s’effacer. En effet, on ne saurait compter des choses qui ne se sont pas produits ou qui sont essentiellement incertains. C’est la notion de probabilité qui devrait prendre la relève.
Il se trouve que l’outillage mathématique est très proche.
D’autre part, pour les « prolongements du passé », il existe un grande tentation de réutilisation les outils statistiques du passé pour « prédire l’avenir ». Rien de condamnable en cela. Toutefois, il faudrait bien différencier les 2. Combien de fois présente-t-on sur la même courbe de chiffres du passé et du futur sans aucun avertissement. C’est d’autant plus important que souvent la différence passé/futur ne correspond pas à la date de lecture mais souvent un an plus tôt. D’autre part, l’erreur des chiffres n’est pas de même nature. Pour le passé, ce sont des erreurs pour obtenir les données qui priment. Pour le futur, on est face à une prédiction qui implique un modèle (même sous-entendu) : l’erreur provient essentiellement du modèle. Sauf de rares exceptions, les modèles prédictifs sont très lacunaires.
Finalement, cette prétention à fournir des prévisions est très suspecte. La suspicion porte sur la « sincérité » des chiffres du passé. C’est flagrant pour les résultats d’entreprise. Dans quelle mesure la fidélité au prévision ne concourre-t-il pas au «toilettage » du résultat de l’année passée ?
 
Cette confusion passé/futur est très généralisée.
 
Lorsque l’on dit qu’il reste pour 50 ans de pétrole en consommation 2006, c’est une estimation actuelle (du passé, les réserves de pétrole). L’unité est étrange : « 50 ans… » au lieu de « X milliard de tonnes ». Cette estimation est aussi très imprécise.
Partager cet article
Repost0
31 décembre 2007 1 31 /12 /décembre /2007 08:57

Ces sujets évoquent des données chiffrées. Ces données chiffrées fournissent de l’information sur un « vaste ensemble ».
Il faut tout d’abord répéter que « la carte n’est pas le territoire ». Aussi précises et « exhaustives » ces données soient elles, ce n’est qu’une projection. En pratique, les données sont très partielles, et la connaissance de l’ensemble est largement lacunaire.
 
J’ai évoqué dans un flou volontaire l’objet de ces chiffres : « un vaste ensemble ».
L’une des premières difficultés que l’on rencontre et de savoir si l’ensemble en question est « précisément défini » ou non. Prenons par exemple l’ensemble des participants à une manifestation. Il est sans doute borné (c'est-à-dire que l’on peut trouver un sur ensemble fini le contenant). Par contre, la détermination de la participation ou non à une manifestation est sans doute délicate : entre les « clairement participants » et les « clairement non participants », il y a une zone frontière.
Cette situation se retrouve fréquemment. Si cette zone frontière n’est pas d’importance « marginale », il est clair que le chiffrage ne peut être qu’en ordre de grandeur. C'est-à-dire que les fournisseurs de ces chiffres doivent abandonner tout prétention de précision.
Si la zone frontière est «d’importance marginale », elle est une première source d’imprécision dont il faut avoir conscience.
 
Un deuxième caractéristique de ce « vaste ensemble » est de savoir s’il concerne uniquement le passé ou non. Je vais examiner ici le premier cas.
S’il concerne uniquement le passé, la « définition de l’ensemble » est (en théorie) fixe. Le nombre d’être humain ayant vécu, le temps passé depuis le big bang, le déficit de l’état français en 2005, le nombre d’habitant en France en 2005, le nombre de but marqué par Maradona en match officiel, etc. Il est nécessaire d’avoir des « archives » sur cet ensemble afin de pouvoir « compter ». L’action de compter qui parait simple est susceptible d’erreur.
Rappelons les principes du comptage (ce sont ceux de l’arithmétique) : individualiser les éléments comptés, les éléments sont non marqués au départ, partir d’un compteur à zéro, passer en revue un à un les éléments (choisir un élément non marqué, faire + 1 dans le compteur et marquer l’élément choisi), s’arrêter lorsque l’on ne trouve plus d’élément non marqué.  Et bien tout cela devient très difficile lorsque le nombre d’élément à compter est important. Le marquage n’est pas simple à pratiquer. En conséquence, le fait de ne pas compter plusieurs fois le même élément est délicat. Enfin, savoir si l’on a tout compté ou pas est un vrai problème.
En pratique, le comptage ne se fait sur les éléments « réels » mais sur des informations tirées de ces éléments : c’est un travail documentaire. C'est-à-dire que l’on passe de « l’élément réel » à une représentation partielle de celui-ci. Cette saisie de donnée peut être source d’erreur. Qui plus est, la projection de l’élément réel sur une « fiche » de donnée peut « coincer ». On ne prend en compte que les éléments de la fiche, et on ignore donc d’autres caractéristiques. Si la fiche est à choix fermé, faire « entrer l’élément réel » dans la fiche peut être une approximation abusive. Enregistrer ces données c’est un travail de mesure : or la prise de mesure est une activité coûteuse. On peut être tenté d’alléger ce coût en « faisant vite ».
On peut tenter de pallier ces problèmes en échantillonnant. Ceci peut se faire pour mesurer la qualité des données obtenues. Ceci peut aussi se faire sur la prise des données : on n’enregistre qu’un petite partie de l’ensemble. L’échantillonnage suppose une certaine homogénéité de l’ensemble et qu’il n’y a pas de biais. Selon certaines hypothèses sur le résultat (loi normale), la taille de l’échantillon fournit le degré de fiabilité de la pratique. On oublie généralement ces hypothèses.
L’obtention des données est sans doute l’étape la plus fragile du processus. Il y a ensuite une étape de « prise en compte informatique ». C’est une étape technique sur laquelle des fraudes ou erreurs peuvent être commises. Enfin, il y a l’étape de restitution. C'est-à-dire qu’il s’agit de réduire la masse considérable d’informations détaillées (illisible) en un petit nombre de chiffres de synthèses dit « statistiques ». Nous sommes ici dans un cadre qui utilise un outil mathématique mature. Par contre, l’objectivité de cet outil n’empêche pas une manipulation selon l’intention de celui qui opère.
La manipulation intervient par exemple par le choix des dates de départ et de fin pour les évolutions temporelles. C’est notamment le cas des courbes de performances des OPCVM. On trouve aussi le choix des critères de regroupement, des comparaisons.
 
Partager cet article
Repost0
28 décembre 2007 5 28 /12 /décembre /2007 08:50
Lorsque j’ai créé cette catégorie « Statistique », j’avais en tête un article paru dans la revue « La recherche Hors série ». Il s’agit du numéro 13 d’octobre-décembre 2003.
 
Je vais citer un exemple de la page 60 « du bon usage des statistiques » (Ulrich Hoffrage, Ralph Hertwig, Gerd Gigrenzer et Samuel Lindsey).
 
« Etant donné une maladie dont la prévalence (nombre de cas dans une population sans distinction des cas nouveaux et anciens) et de 1/1000 et pour laquelle il existe un test de dépistage donnant 5% de faux positifs, quel est le risque qu’une personne dont le test est positif soit effectivement malade (on ne sait rien d’autre de cette personne). »
 
Comme vous êtes prévenus, vous allez sans doute cogiter et ne pas répondre « 95% » comme la plupart des gens (donné par 27 étudiants en faculté de médecine sur 60).
 
 
 
 
 
Alors la bonne valeur ?
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Sur 1000 personnes, il n’y a un malade (vrai positif) et 50 faux positifs. Il y aura donc 1 malade sur 51 positifs soit 2% (la décimale est illusoire à ce niveau de précision). La réponse a été donnée par 11 étudiants sur 60.
 
Je trouve l’exemple frappant en ce qui concerne la signification des statistiques. En effet, il est simple : il n’y a que 2 « taux ». « Tout le monde » sait ce qu’est un taux.
Les valeurs de ces taux ne sont pas aberrantes (bien que 5% de faux positif puisse sembler un peu élevé). La prévalence est « raisonnable ».
Pourtant, le fait de n’avoir qu’une probabilité de 2% d’être malade lorsqu’on est positif est ridiculement faible. Tellement faible que cela en est choquant.
J’aimerai savoir ce que signifie « être positif » pour les contrôles anti-dopage. Quel est le taux de « faux positif » ? Est-il aussi faible ?
 
On pourrait croire que le fait d’être positif entraîne « presque à coup sûr » le fait d’être malade. Ce n’est pas le cas dans cet exemple.
Pire, le résultat va à l’encontre ce que « l’on croit savoir ». Qui en effet est capable de prendre le recul nécessaire (de mener le raisonnement et de faire le calcul) dans la « vie courante » lorsqu’on présente des chiffres ? Encore une fois, je rappelle que ce ne sont que 2 taux : il n’y a rien de compliqué, même pas une moyenne !
 
Si l’on ne prend pas conscience que la fourniture de données chiffrées imposent des explications (origine, obtention, signification, algorithme de calcul, validation, …), on est fatalement dans l’erreur. Cette prise de conscience devrait notamment toucher les journalistes afin qu’ils ne publient pas des chiffres en dehors de tout contexte.

Partager cet article
Repost0
18 octobre 2007 4 18 /10 /octobre /2007 09:19

J’ai déjà évoqué les simulations d’évolution d’un système solaire en général et du notre en particulier. Le fait que l’on aboutisse à un disque et des planètes «ordonnées » mérite l’examen.

Pour ce qui est de la répartition des orbites, je suis tombé sur : http://www.jp-petit.com/science/f700/f701.htm.

Cette « loi dorée » de Souriau est largement plus riche que la loi de bode. Pourtant, on n’arrête pas de parler de la loi de bode qui est fausse et sans intérêt (mis à part historique) et on ignore cette loi dorée (mal nommée) qui est bien plus riche de compréhension. Elle donne une clé explicative : les planètes se répartissent sur des orbites de façon globale pour éviter des résonances entre elles.

Il faudrait voir pour les cortèges de satellites.

En tout cas, cela donne aussi une clé pour les autres systèmes solaires.

 

Partager cet article
Repost0
29 août 2007 3 29 /08 /août /2007 09:44

Mes interrogations sur le climat sont une occasion d’aborder la question des grandeurs statistiques. Je vais notamment me focaliser sur la variabilité.

 

Tout d’abord, je remarque que parler du climat d’une vaste région (comme la France par exemple) est proche du non sens. En effet, la France en particulier connaît une très grande variété de climats. Il importe de délimiter de façon assez réduite le territoire considéré. En étant jusqu’au-boutiste, on peut remarquer qu’en une centaine de mètre, la température peut changer.  On va supposer que l’on est « à un endroit donné et fixe ».

 

A cet endroit, le « temps qu’il fait » (la météorologie) se définit à chaque instant. On peut la caractériser par une assez longue liste de paramètres (température(s), précipitation, ensoleillement, vent, nature des précipitations, pression, taux d’humidité,..). On peut parler de températures au pluriel car celle du sol est différente de celle de l’air. Si celle du sous-sol semble inopportune, la température des éventuelles précipitations l’est, ainsi que celles de l’air aux différentes altitudes. En pratique, la météorologie s’intéresse à la température de l’air à 1m. Et pour cela le protocole de mesure est standardisé (boites blanches ajourées). Il est possible que le matériau de la boîte, la qualité de la peinture voir la nature du thermomètre ne soit pas neutre.

 

Si l’on s’intéresse à la température (de l’air à 1 m de hauteur) en un point donné, voici une variable qui varie « à chaque instant ».  L’unité temporelle est discutable : on peut supposer que la température de l’air est « plutôt stable ». On est aussi contraint par le temps de réponse de l’appareil de mesure (les thermomètres de Galilée par exemple présentent une grande inertie). Et finalement, pour la météo, il est sans doute sans intérêt de suivre la température à la microseconde près. Une fréquence de la minute semble convenable. Le relevé météo (à un endroit donné pour la température) va se traduire par une liste (éventuellement avec des trous) d’une liste de températures toutes les minutes. Sur une année, cela fait 60*24*365,25 = 525960 données.

 

 

Si l’on considère la question du point de vue climatique, il semble admis que la base de travail est annuelle. C’est l’année qui est le cycle primordial pour la définition d’un climat. Concernant les paramètres, on peut se demander si ce doit être les mêmes que ceux de la météorologie. Je ne saurais traiter cette question. Je vais me concentrer sur un exemple : la température.

 

Pour le climat à cet endroit, il s’agit donc de faire face à 525960 données. C’est la question de l’exploitation de ces données que je voudrais examiner. En pratique la donnée de la température à la xème minute de l’année n’est pas très parlante pour décrire un climat : il semble qu’il faille en tirer une synthèse. Si l’on construisait la courbe à partir de ces données, il se dégagerait sans doute 2 cycles : un cycle annuel (les températures montent en été et diminuent en hiver) et un cycle de 24 h (les températures baissent la nuit et montent le jour). Ces constats généraux sont trop vagues et insuffisants pour décrire un climat.

 

Si l’on regarde le site météoFrance, la solution retenue pour publier la description d’un climat consiste à utiliser une base mensuelle et à donner 2 indications de températures : moyenne des minimales et moyenne des maximales. Ceci amène des commentaires. La base mensuelle est la plus parlante pour le grand public (tout le monde connaît les mois). De plus, comme il y a 12 mois, cela donne un étalement pratique (assez grand pour voir les variations et assez petit pour être lisible). L’inconvénient des mois c’est qu’ils n’ont pas la même durée. Si pour la température, cela n’est pas très grave, c’est peut être plus problématique pour une grandeur additive comme la précipitation. La moyenne des minimales de janvier est calculée sur x mois de janvier (30 ans). Il s’agit de minimales journalières. Si l’on considère une année donnée, on extrait des 525960 données 365 minimales et 365 maximales, dont on tire 2 fois 12 moyennes. La moyenne de ces moyennes sur 30 ans fournit le climat constaté « récemment ».

 

On peut comparer les 2 courbes d’une nouvelle année avec ces 2 courbes de référence : il n’y a pas de raison pour qu’elles coïncident. Le plus probable est que chacune de ces paires de courbes s’enchevêtrent. S’il y a un écart systématique (par exemple, la courbe de la dernière année systématiquement au dessus), on peut dire que cette année a été exceptionnellement chaude.

 

En théorie, les données de la nouvelle année devraient être utilisée pour calculer la nouvelle moyenne du climat constaté. D’autre part, la base de 30 ans est questionnable. Dans le cadre du communication grand public (qui veut connaître le climat auquel il doit s’attendre s’il va « à cet endroit-là ») c’est sans doute raisonnable.

 

Tout le monde admet que le climat annuel d’un endroit n’est pas figé. Années après années, la courbe des températures maximales vient s’entortiller dans les courbes anciennes. Comment approcher cette variabilité ? On peut par exemple se poser 3 questions. 1 : y a-t-il une tendance conjoncturelle (sur les dernières années) ? 2 – Le climat à cet endroit est il plus variable qu’ailleurs ? 3 – Le climat présente-t-il un « rythme » ?

Il semble difficile de traiter ces questions par approche globale du climat. Les questions vont se poser paramètre par paramètre.

 

1 Les températures mensuelles maximales présentent elles une tendance ? Pour répondre à cette question, on pense utiliser les moyennes de température et la régression linéaire.  Les moyennes peuvent être mensuelles ou bien annuelles. A noter qu’il peut y avoir une tendance vers des hivers plus chauds et des étés plus froids qui ne se traduisent par aucune tendance au niveau moyen annuel. Ceci présente plusieurs écueils. Tout d’abord, la pertinence de la tendance. Elle s’analyse par la valeur du coefficient de détermination (de la régression). Ensuite, il y a le degré de précision des valeurs : si la tendance est faible, elle est « dans l’épaisseur du trait ». Il est difficile de la juger pertinente, des tas de « bruits » peuvent être la cause de ce constat. Enfin, le cadre de description du climat peut jouer. Si l’on a opté pour le choix des maximums et un cadre mensuel, il se peut que la tendance échappe à ce cadre. Ce serait le cas si la tendance est de l’ordre de la semaine ou si elle ne porte par sur les extremums (ici, on risque de payer la sélection 730 données et l’oubli des 500 000 autres).

 

2 La donnée des n maximums de température du mois de janvier pendant n années peut se traiter comme une variable aléatoire. On a vu la moyenne précédemment, on va caractériser la variabilité du climat par l’utilisation de l’écart type. On peut obtenir les 12 écarts types mensuels des températures maximales par exemple. La comparaison des climats régionaux permettrait de classer les climats « stables » des climats variables. A ma connaissance, cela n’a pas été fait.

 

3 Il se peut que les tendances trouvées en 1 soient de courte durée (quelques années) ou même inexistantes. Ceci ne veut pas dire qu’il n’existe pas un « ordre » dans les variations du climat.  On recherche généralement, un ordre périodique, multipériodique ou pseudo périodique. Les techniques de décomposition de fourrier sont à utiliser pour les premiers. Il se peut aussi que la grandeur suive une loi des événements rares (de poisson). Ce serait par exemple considérer qu’un mois de janvier particulièrement froid (ou chaud), c'est-à-dire présentant un écart x par rapport à la moyenne a la probabilité « y » de se produire pendant t années. Ce genre de recherche est fait pour les événements uniques (par exemple les crues centennale) mais ne semble pas pratiqué sur les grandeurs composites que représente le climat

Enfin, c’est le rassemblement de ces constats effectués pour chacun des paramètres qui permet de dégager un discours descriptif sur l’évolution du climat.

 

Bref, on est loin d’un discours grand public !

Partager cet article
Repost0
23 octobre 2006 1 23 /10 /octobre /2006 10:11

Réflexion sur l’article de « science et avenir » concernant l’émergence. (hors série numéro 143 de Juillet Aout 2005). A partir de l’article sur le jeu de la vie de Jean-Claude Heudin.  Il est question par exemple du « glisseur ». Ce truc au comportement particulier. L’article pose le problème en se demandant comment ce comportement « émerge » des règles du jeu de la vie. 

 

Je pense que le problème est mal posé. Supposons une jeu de la vie de 100x100, cela fait 10 000 cases. Supposons 100 générations. Le déroulement du jeu de la vie est donc 1 millions d’événements élémentaires (ordonnées de façon spatio temporelle). Un glisseur concerne une dizaine de case pendant environ 80 génération, soit 800 événements élémentaires. 

Ce qu’il faut se demander c’est pourquoi on s’intéresse particulièrement à ces 800 événements. 
Et pourquoi les unifie-t-on sous un même concept que l’on dénomme X ? (Que « X » soit intitulé « glisseur » avec sa sémantique me semble secondaire).

800 sur 1 000 000 c’est 0,08%. Mais si l’on considère qu’il s’agit en fait d’un choix précis de 800 éléments (ce sous-ensemble là) sur un ensemble de 1 000 000, la sélection faite est en réalité bien plus improbable (C(1000000,800)/21000000). Le calcul numérique ne marche pas avec excell : le résultat est plus infime que ce qui est infime.   

 

Dit autrement, le fait de « voir une propriété émerger » c’est faire le choix de sélectionner cette propriété parmi les autres lectures possibles. C’est un choix d’interprétation. L’émergence n’est donc pas un truc mystérieux « de la nature » mais un choix de l’observateur.

Ceci dit, l’observateur a sans doute ses raisons de faire ce choix. Et il est même possible que ses raisons soient « bonnes ». En effet, ce qui est en jeu c’est la capacité à « décrire ce qui se passe ».

Si l’on prend l’exemple du jeu de la vie, lister un million d’événement est assez fastidieux ! Il est plus court de dire qu’il y a un glisseur qui passe. C’est incomplet mais cela dit déjà beaucoup de chose et c’est « suffisant » pour un interlocuteur humain. 

 

Finalement, ce qui est en jeu c’est plutôt l’entropie au sens de Kolmogorov (ou plutôt de Bennett) du système (Cf article de Jean-Paul Delahaye). La fameuse propriété qui émerge c’est un mode de description qui rend compte de façon « économique » (c'est-à-dire en moins de blabla) du « machin ». Ceci s’accompagne aussi de l’acceptation d’une perte d’information secondaire (par exemple, on ne s’intéresse qu’aux grandeurs statistiques et on oublie ce qui se passe pour un atome isolé).  

 

Cetains auterus vont dans le même sens : il est évoquer que dire que la propriété « émerge » correspond à une incapacité (au moins temporaire) à préciser. 

 

Plutôt que de gloser en vain sur l’émergence, il serait plus utile d’affronter le problème de la « synthétisation ». On connaît par exemple les méthodes statistiques qui permettent de rendre compte de façon « correcte » et synthétique. Elles ne marchent pas tout le temps. Quelles sont leurs limites d’application ? Quelles sont leurs limites descriptives ? Connaît on d’autre méthode ? 

 

Derrière ce mot « émergence », ce qui est en jeu ce n’est pas un mystère de la nature mais une « théorie de la capacité à décrire ».

Si vous avez une idée la dessus, merci de vos commentaires.

Partager cet article
Repost0

Présentation

  • : je blogue, donc je suis
  • : Si vous cherchez la vérité, allez croire ailleurs !
  • Contact

Recherche

Archives