Soutenance de thèse : Selim Mecanna
Début
Le 12 décembre 2024 à 10h00Fin
Le 12 décembre 2024 à 12h00Lieu
IRPHÉ - Salle Séminaire 1Monsieur Selim Mecanna est autorisé à présenter ses travaux en vue de l'obtention du diplôme national de Doctorat délivré par Centrale Méditerranée.
Titre : A critical assessment of reinforcement learning methods for bio-inspired navigation
École doctorale : ED 353 - Sciences pour l'Ingénieur : Mécanique, Physique, Micro et Nanoélectronique
Spécialité : Sciences pour l'ingénieur : spécialité Mécanique et Physique des Fluides
Lieu : Salle Séminaire 1, IRPHÉ, 46 Rue frédéric joliot curie 13013 Marseille
Rapporteurs
- Monsieur Médéric Argentina, Université Côté d'Azur, INPHYNI
- Madame Eva Kanso, USC
Membres du jury
- Monsieur Christophe Eloy, Centrale Méditerranée (Directeur de thèse)
- Madame Aurore Loisy, CNRS IRPHÉ (Co-directrice de thèse)
- Monsieur Jérémie Bec, CNRS INPHYNI (Président)
- Monsieur François Gallaire, EPFL, LFMI
Résumé
Le plancton est essentiel aux écosystèmes aquatiques, car il est à la base de la chaîne alimentaire et joue un rôle crucial dans la production d’oxygène et le piégeage du carbone. Ces organismes sont capable de détecter divers signaux environnementaux et d’adapter leur réponse motrice, ce qui leur permet de naviguer dans des écoulements complexes afin de se reproduire et se nourrir.
S’inspirant de ces organismes, cette thèse se concentre sur les problèmes de navigation caractérisés par une observabilité locale. Elle vise à évaluer dans quelle mesure l’apprentissage par renforcement profond permet de trouver des solutions quasi-optimales pour cette classe de problèmes. Pour ce faire, nous considérons le problème modèle de la navigation directionnelle, directement inspiré de la migration verticale du plancton.
Outre sa pertinence biologique, ce problème a été choisi parce qu’une solution de référence analytique est connue, permettant ainsi d’évaluer quantitativement les stratégies apprises. Nous implémentons trois algorithmes d’apprentissage classiques : Q-Learning, Advantage Actor Critic et Proximal Policy Optimization (PPO). Nous démontrons la supériorité de PPO, qui permet d’obtenir des solutions
quasi-optimales tout en faisant preuve de robustesse dans l’apprentissage et d’adaptabilité à plusieurs environnements. L’importance de techniques supplémentaires dans l’implémentation, telles que l’usage du generalized advantage estimation et la vectorisation des environnements, est soulignée.
Ces résultats nous permettent de formuler des recommandations claires sur l’utilisation des méthodes d’apprentissage par renforcement pour les recherches futures sur des problèmes de navigation bio-inspirée.
Mots-clés : mécaniques des fluides, turbulence, apprentissage par renforcement.
Plankton are essential to aquatic ecosystems, serving as the base of the food chain and playing a critical role in oxygen production and carbon sequestration. By detecting and responding to various environmental signals, these organisms are able to navigate in complex flows for reproduction and feeding purposes.
Drawing inspiration from these organisms, this thesis focuses on navigation problems characterized by local observability. It aims at assessing the capacity of reinforcement learning (RL) at finding near-optimal solutions for this class of problems. To this end, we consider the model problem of directional navigation, directly inspired by the daily vertical migration of plankton.
Besides its biological relevance, this problem was chosen because a strong analytical baseline is known, there by allowing quantitative
evaluations of learned strategies. Through the implementation of three learning algorithms,we demonstrate that Proximal Policy Optimization (PPO) outperforms its counter-parts, achieving near-optimal solutions while showcasing robustness in training and adaptability across several flow environments. Key insights include the importance of specific implementation techniques, such as generalized
advantage estimation and vectorized environments.
These results allow us to make clear recommendations on the use of RL methods for future research on similar problems. This work also under-scores the potential of RL to model and solve real-world navigation challenges, drawing inspiration from natural organisms.
Keywords: fluid mechanics, turbulence, reinforcement learning.