MOOSE-FS - Optimisation multi-objectifs pour la sélection de caractéristiques d'ensemble
Ingénierie et Architecture

De nombreux jeux de données modernes dépassent souvent les dizaines de milliers de variables. Lorsque les observations sont bien moins nombreuses que les variables, il devient indispensable de réduire l’espace de travail tout en préservant le signal pertinent. Aucune méthode unique ne couvre tous les cas ; chaque algorithme de sélection porte un biais lié à son modèle ou à la structure du jeu de données.
MOOSE-FS (Multi-Objective Optimization for Ensemble Feature Selection) répond à ce défi en associant la diversification d’un ensemble de sélecteurs à une recherche explicite de compromis entre performance et stabilité. Le projet et son implémentation résultent de plusieurs pistes de recherche internes : optimisation multi-objectif, apprentissage par ensembles et évaluation du compromis entre stabilité et performance.
Pipeline en quatre étapes :
- Sélection individuelle : un panel hétérogène de méthode de sélection individuel génère des listes de variables.
- Fusion adaptative : ces listes sont combinées par des approches set-based ou rank-based, produisant plusieurs sous-ensembles candidats.
- Évaluation croisée : chaque candidat est testé sur plusieurs classifieurs. Les scores de performance sont mesurés en parallèle d’un indice de stabilité (Novovičová) obtenu après répétions des premières étapes.
- Optimisation Pareto : les sous-ensembles sont placés dans l’espace (performance, stabilité, taille) ; celui qui domine le plus et est dominé le moins constitue la solution finale.
MOOSE-FS se distingue d’abord par sa modularité : chaques composante de la pipeline peuvent être choisi ou étendu, ce qui rend l’outil adaptable à n’importe quel domaine travaillant sur des jeux de données à haute dimension.
Les premiers tests confirment que cette approche par ensemble multi-objectif procure un compromis solide entre performance prédictive et stabilité des variables retenues, illustrant tout l’intérêt de combiner diversification méthodologique et optimisation de Pareto.
MOOSE-FS démontre qu’allier des méthodes en ensemble à une optimisation multi-objectif constitue une solution flexible et fiable pour la sélection de variables en haute dimension.