DE

Ska data challenge sdc3b

Ingénierie et Architecture

Ce projet explore l’utilisation de l’intelligence artificielle pour prédire la fraction d’hydrogène neutre dans l’Univers primitif à partir de spectres de puissance simulés, dans le cadre du radiotélescope international SKA.

Le projet s’inscrit dans le cadre du développement du Square Kilometre Array (SKA), le plus grand radiotélescope jamais conçu, dont l’objectif est d’explorer les origines de l’Univers à travers des observations radio très haute résolution. Une des étapes clés de cette exploration concerne l’étude de l’Époque de Réionisation, période durant laquelle l’hydrogène de l’Univers est passé d’un état neutre à ionisé. Un indicateur central pour cette recherche est la fraction d’hydrogène neutre (xHI), que les astronomes cherchent à estimer à partir de données radio.

Dans ce contexte, le challenge international SDC3b, piloté par la communauté scientifique du SKA, propose des données simulées inspirées des futurs relevés du télescope. L’objectif est de tester des méthodes d’intelligence artificielle capables de prédire cette fraction à partir de spectres de puissance — des matrices 10×10 représentants l’intensité des signaux radio selon la fréquence spatiale.

Le projet a consisté à développer une chaîne complète de traitement de données et d’expérimentation, incluant la préparation des données, la gestion de l’important déséquilibre du jeu de données, l’entraînement de modèles, l’évaluation croisée, ainsi que l’optimisation d’hyperparamètres. Divers modèles de machine learning ont été testés, allant des approches classiques comme XGBoost à des modèles plus avancés tels que des réseaux de neurones convolutifs (CNN) avec mécanismes d’attention, ou encore des visual transformers adaptés à la structure des données.

Les modèles développés ont été évalués sur des jeux de validation ainsi que sur des jeux de test indépendants, afin de tester leur capacité de généralisation. Les premiers résultats sont prometteurs : les prédictions s’alignent étroitement sur les valeurs attendues, démontrant la pertinence de ces approches pour l’analyse de données astronomiques simulées.

La suite du projet prévoit l’ajout de bruit instrumental réaliste aux simulations, pour évaluer la robustesse des modèles dans des conditions proches des observations du SKA, et préparer l’intégration future de ces outils dans des pipelines d’analyse scientifiques.