Quand le vent nous parle…

Une collaboration menée par le LSCE (CEA-CNRS-UVSQ), avec l'Iramis (SPEC/SPHYNX), applique pour la première fois une technique d'apprentissage automatique utilisée en linguistique à des bulletins météorologiques quotidiens couvrant 70 années. La voie est désormais ouverte à des analyses climatologiques hors d'atteinte pour les experts humains !

Comment « lire » l'évolution du climat dans une masse de bulletins météo quotidiens ?

Voulant relever ce défi, les chercheurs en sciences de l'atmosphère utilisent des algorithmes (Empirical Orthogonal Functions ou k-means) pour réduire la complexité des champs de pressions. Ils obtiennent ainsi un petit nombre d'éléments de base qui peuvent cependant se révéler difficiles à interpréter ou bien, qui combinent des objets intriqués et donc impossibles à étudier séparément, comme les cyclones et les anticyclones.

Des climatologues du LSCE, en collaboration avec l'Iramis et le LISN, ont mis en œuvre l'algorithme de machine learning LDA (Latent Dirichlet Allocation) qui, lui, conduit à isoler des structures à grande échelle (cyclones et anticyclones) qu'ils peuvent analyser individuellement. Un atout précieux pour étudier des événements comme les vague de froid ou les tempêtes extratropicales !

La LDA est capable d'analyser des milliers de documents en peu de temps et de mettre en exergue des éléments importants, des récurrences et des anomalies. Il est en particulier utilisé en linguistique pour étudier le langage naturel : son analyse des mots révèle le ou les thèmes d'un document, chaque thème étant identifié par un vocabulaire spécifique ou plus exactement, par une distribution statistique particulière de la fréquence des mots.

Dans l'usage que font les climatologues de la LDA, le document devient une carte météo quotidienne et le mot, un pixel de la carte. Le thème avec son corpus de mots peut devenir un cyclone ou un anticyclone, et plus généralement, un « motif ».

L'intelligence artificielle cherche des corrélations à la fois entre différents lieux sur une même carte, et entre les cartes successives au cours du temps. En quelque sorte, elle « remarque » que tel lieu est souvent corrélé avec tel autre lieu, de façon récurrente sur l'ensemble de la base de données, et cet ensemble de lieux corrélés constitue un « motif ».

L'algorithme effectue des analyses statistiques à deux niveaux distincts :

à l'échelle du mot ou du pixel de la carte, la LDA définit un thème ou « motif », en attribuant un certain poids à chaque pixel, et définit ainsi la forme et la position du « motif » ;
la LDA décompose une carte météo quotidienne sur l'ensemble de ces « motifs », qui se voient attribuer, chacun, un certain poids.

Concrètement, les données de base sont les cartes journalières de pression au niveau de la mer entre 1948 et 2018 sur l'Atlantique Nord. La LDA identifie 28 « motifs » définis dans l'espace (parmi lesquels, l'anticyclone des Açores, la dépression de Gênes ou l'anticyclone de Scandinavie) qui permettent de décrire toutes les cartes.

Ces « motifs » et les analyses statistiques qui leur sont associées permettent aux chercheurs d'étudier aussi bien des phénomènes météorologiques tels que des évènements extrêmes, que des tendances climatiques de plus long terme et éventuellement de comprendre leurs mécanismes pour mieux les prévoir à terme.

Référence :

Voir l'article sur le site de I'PSL.

Collaboration :

CEA-IRAMIS/SPEC : Service de physique de l'état condensé UMR CEA-CNRS.
Laboratoire des Sciences du Climat – LSCE (CEA-CNRS-UVSQ) , membre de l'IPSL (Institut Pierre-Simon Laplace).
Laboratoire Interdisciplinaire des Sciences du Numérique – LISN

Contacts CEA :