Recherche
Projets
Découverte de molécules grâce à l'apprentissage automatique et à l'optimisation combinatoire
Le but principal de ce projet de recherche est de développer des méthodes pour la génération automatique de molécules qui satisfont des propriétés moléculaires cibles, en particulier pour le domaine de la chimie des matériaux organiques moléculaires. J'ai proposé un algorithme évolutionnaire générique et interprétable nommé EvoMol, qui permet l'optimisation de nombreuses propriétés moléculaires avec un grand succès [2]. J'ai proposé une approche basée sur un filtrage de l'espace de recherche pour la génération de molécules réalistes [10]. J'ai également publié une revue de l'état de l'art du domaine de la génération automatique de molécules [9].
La plupart des propriétés cibles de notre domaine d'application dépend d'évaluations coûteuses en chimie quantique (calculs DFT). Cela justifie l'utilisation de modèles d'apprentissage automatique en tant qu'estimateurs à faible coût de ces propriétés. J'ai défini des modèles d'apprentissage de la géométrie moléculaire calculée en DFT, qui est très liée aux propriétés électroniques cibles [5, 8]. Dans le cadre d'une collaboration avec une chercheuse post-doctorale, nous avons montré qu'un jeu de données de référence pose des problèmes de généralisation lorsqu'il est utilisé en tant que jeu de données d'entraînement d'un modèle de prédiction d'une propriété moléculaire [3]. Nous avons également proposé une méthode efficace pour maximiser différentes mesures de la diversité moléculaire, afin d'obtenir un jeu de données moléculaires de grande taille avec une forte diversité [1].
J'ai également proposé une approche d'optimisation boîte-noire basée sur un modèle de substitution, qui combine une méthode d'optimisation avec un modèle d'apprentissage automatique de propriétés moléculaires. Le modèle de substitution a pour rôle de prédire les valeurs de la propriété coûteuse cible afin de sélectionner des candidats prometteurs dans l'espace de recherche. J'ai montré que notre approche est plus efficace qu'un algorithme évolutionnaire pour l'optimisation d'une propriété électronique [6]. Finalement, l'utilisation de modèles d'apprentissage automatique pour la chimie lève des questions concernant leur interprétabilité. J'ai proposé une approche basée sur EvoMol afin de générer des explications contre-factuelles pour tout modèle de classification d'une propriété moléculaire binaire [7].
Déréplication en chimie du végétal
J'ai travaillé avec un groupe de scientifiques en chimie du végétal durant mes études de master. L'objectif était d'améliorer un outil logiciel existant utilisant des spectres RMN pour l'identification de composés dans un mélange. J'ai réorganisé le code source et j'ai formalisé l'algorithme principal et amélioré son efficacité. L'outil a par la suite été rendu public [4].
Publications
Publications dans des journaux scientifiques
[1] Jules LEGUY, Marta GLAVATSKIKH, Thomas CAUCHY et Benoit DA MOTA. “Scalable estimator of the diversity for de novo molecular generation resulting in a more robust QM dataset (OD9) and a more efficient molecular optimization”. In : Journal of Cheminformatics 13.1 (oct. 2021). DOi : 10.1186/s13321-021-00554-8
[2] Jules LEGUY, Thomas CAUCHY, Marta GLAVATSKIKH, Béatrice DUVAL et Benoit DA MOTA. “EvoMol : a flexible and interpretable evolutionary algorithm for unbiased de novo molecular generation”. In : Journal of Cheminformatics 12.1 (sept. 2020). DOi : 10.1186/s13321-020-00458-z
[3] Marta GLAVATSKIKH, Jules LEGUY, Gilles HUNAULT, Thomas CAUCHY et Benoit DA MOTA. “Dataset’s chemical diversity limits the generalizability of machine learning predictions”. In : Journal of Cheminformatics 11.1 (déc. 2019). DOi : 10.1186/s13321-019-0391-2
[4] Antoine BRUGUIÈRE, Séverine DERBRÉ, Joël DIETSCH, Jules LEGUY, Valentine RAHIER, Quentin POTTIER, Dimitri BRÉARD, Sorphon SUOR‑CHERER, Guillaume VIAULT, Anne‑Marie LE RAY, Frédéric SAUBION et Pascal RICHOMME. “MixONat, a Software for the Dereplication of Mixtures Based on 13C NMR Spectroscopy”. In : Analytical Chemistry 92.13 (juill. 2020). DOi : 10.1021/acs.analchem.0c00193
[5] Jules LEGUY, Thomas CAUCHY, Béatrice DUVAL et Benoit DA MOTA. “Predicting Interatomic Distances of Molecular Quantum Chemistry Calculations”. en. In : Advances in Knowledge Discovery and Management : Volume 9. Studies in Computational Intelligence. Submitted : 2019. Springer International Publishing, 2022. DOi : 10.1007/978-3-030-90287-2_8
Publications dans des conférences scientifiques
[6] Jules LEGUY, Béatrice DUVAL, Benoit DA MOTA et Thomas CAUCHY. “Surrogate‑Based Black‑Box Optimization Method for Costly Molecular Properties”. In : 2021 IEEE 33rd International Conference on Tools with Artificial Intelligence (ICTAI). Nov. 2021. DOi : 10.1109/ICTAI52525.2021.00124
[7] Jules LEGUY, Bryan GARREAU, Thomas CAUCHY, Benoit DA MOTA et Béatrice DUVAL. “Génération d’explications contre‑factuelles pour la chimie moléculaire”. In : Workshop EXPLAIN’AI hosted at EGC 2022. Extraction et Gestion des connaissances, EGC 2022, France, jan. 2022
[8] Jules LEGUY, Thomas CAUCHY, Béatrice DUVAL et Benoit DA MOTA. “Des réseaux de neurones pour prédire des distances interatomiques extraites d’une base de données ouverte de calculs en chimie quantique”. In : Extraction et Gestion des connaissances, EGC 2019, Metz, France, January. 2019
Publications dans des ouvrages scientifiques
[9] Jules LEGUY, Thomas CAUCHY, Béatrice DUVAL et Benoit DA MOTA. In : Chapter 2 ‑ Goal‑directed generation of new molecules by AI methods, in Computational and Data‑Driven Chemistry Using Artificial Intelligence. Elsevier, jan. 2022. DOi : 10.1016/B978-0-12-822249-2.00004-9
Preprints
[10] Thomas Cauchy, Jules Leguy, and Benoit Da Mota. “Definition and exploration of realistic chemical spaces using the connectivity and cyclic features of ChEMBL and ZINC.”. en. In: (Dec. 2022). DOi: 10.26434/chemrxiv-2022-2b41l