Molegro en bref

Comment s’organise le travail entre modélisateurs et utilisateurs (ou clients) finaux avec Molegro ? Il y a plusieurs manières de le concevoir, soit un partenaire fait tout, soit le travail est partagé entre partenaires, avec des rétroactions. Il faut savoir qu’un des avantages de ce logiciel est qu’il existe sous deux formes: i) un logiciel ‘lourd’ (sous licence) pour les calculs, visualisation, analyses et ii) un logiciel ‘léger’ (libre) pour les visualisations et analyses.
Ce qui permet une organisation du travail potentiellement très avantageuse. Les calculs (paramétrage et exécution, ‘client’ lourd) peuvent être faits dans un service de modélisation (ou en télétravail); les résultats peuvent être transférés sur une plateforme partagée; enfin, l’analyse pourra être réalisée au laboratoire (ou en télétravail, ‘client’ léger et libre) par l’utilisateur final.
Et c’est bien le dépouillement (inspection visuelle des poses et des scores) associé à la mise en forme des résultats (rapports de calcul, cahiers électroniques) qui consomme le plus de temps (humain). En particulier, si les processus de recherche sont basés sur des cycles de conception courts (20 à 40 molécules, on ne parle pas de criblage). Pouvoir travailler à n fois deux mains devient avantageux. Il permet aussi aux étudiant(e)s de participer au travail proprement dit en faisant leur part d’analyse, sous supervision.

D’après un article publié dans buildblog.buidez.net en 2021 – Mise à jour mars 2025.

Navigation dans le guide

Guide [ Aide Molegro (docking) ]




1. Un peu d’histoire

Le logiciel (MVD, Molegro Virtual Docker) correspondait vraiment à un outil de praticien. Il a accompagné l’émergence de la fonction de score MolDock [Thomsen_2006] et il était initialement vendu par la société Molegro (Université d’Aarhus, Danemark) avec une licence académique perpétuelle (un concept qui nous paraît relever aujourd’hui d’un paradis révolu). Puis affilié à CLC Bio, puis acquis par Qiagen, la dernière version (6.01) date de 2013. Qiagen a abandonné le produit sous sa forme initiale et proposé une alternative dans son offre. L’option prise était une intégration totale dans un workflow orienté PLM (Product Lifecycle Management, traduisons : de la séquence aux tests) et qui correspondait à une orientation essentiellement bio-informatique. Cette approche n’était clairement pas au niveau en termes de modélisation, après quelques essais, nous ne l’avons plus utilisée.
Mais Molexus (on y retrouve René Thomsen et Mikael Christensen, les fondateurs de Molegro) à repris le projet en 2019, les téléchargements sont disponibles, avec des mises à jour (version 7), il y eu de la communication sur une version majeure, mais je n’en sait pas plus.

Liens et lectures

2. La fonction MolDock

La fonction MolDock est dérivée d’un score de type PLP amélioré (notamment liaisons hydrogènes et charges). Le terme PLP (Piecewise Linear Potential) réfère à une fonction définie par morceaux, ce qui correspond, dans le contexte, à une simplification par segments pour décrire une barrière de potentiel. Ce type d’approche était utilisé par GEMDOCK [Yang_2004] qui a servi pour le paramétrage de MolDock. Outre MolDock, MVD inclue aussi la fonction de  score PLANTS [Korb_2009] et une fonction MolDock reparamétrée: Rerank. La fonction MolDock peut prendre en compte la flexibilité (sans limites) des acides aminés du site, via une approche ‘softened potentials‘ dont la force et la tolérance peuvent être individuellement paramétrées. L’évaluation de molécules d’eau déplaçables est possible sur la base d’une pénalité d’entropie [Lie_2011].

Trois types d’algorithmes (OPT, MSE, Iterated Simplex) qui ne nécessitent pas une dérivation (de la fonction de score) sont utilisables pour la recherche (au sens du docking). OPT (MVD Optimizer) est un algorithme évolutionnaire [Michalewicz_1996] basé sur un processus d’évolution différentielle [Storn_1998]. MSE  (MolDock SE pour Simplex Evolution) est un algorithme évolutionnaire hybride. Enfin Iterated Simplex correspond à un algorithme de type Nelder-Mead (downhill simplex) bien connu par ailleurs. Ces algorithmes ne sont pas tous adaptés aux mêmes fonctions de score, ou à toutes les molécules (par exemple en fonction du nombre d’angles de torsions). En pratique, nous utilisons beaucoup MSE et OPT bien que d’autres minimisations soient présentes dans certaines étapes des protocoles de calcul.
Le logiciel dispose d’un mode (GP)GPU, validé sur plateforme Nvidia (nous l’avons utilisé sur des cartes de type Quadro, Tesla, RTX … l’accélération est conséquente) avec des outils (recherche et fonction de score) spécifiques, utilisables aussi pour du criblage. Différents modèles de parallélisme sont implémentés (threads, nœuds, local, client-serveur) et utilisables sur plusieurs CPUs et GPUs. Enfin, Molegro dispose d’un GUI pour l’ensembles des opérations, d’un mode script externe, et d’une API Python qui donne accès à l’essentiel des fonctions.

En termes d’analyse, le logiciel donne accès à l’ensemble des contributions énergétiques composant les scores et gère les cofacteurs en tant qu’entités indépendantes. Ce qui veut dire que nous avons accès aux contributions Cofacteur-Protéine et Ligand-Protéine en termes énergétiques. Nous travaillons sur beaucoup d’enzymes à cofacteur, ces informations sont indispensables, et peu d’outils nous donnent ce type de fonctionnalités d’une manière aussi simple.
Ce logiciel contient bien d’autres raffinements tels que le contrôle sur le paramétrage des algorithmes, ce qui est rare, la plupart des outils à disposition sont de type ‘boite noire’. La partie visualisation n’égalera pas celle d’autres paquetages, mais elle est plus que suffisante pour l’inspection des poses et surtout elle est connectée à d’autres outils de calcul dans MVD.

3. Molegro Data Modeler

Il était également possible de se procurer l’excellent MDM (Molegro Data Modeler) capable de résoudre des problèmes orientés données (fouille, classification, régression) sur la base des résultats de MVD et qui surprend par sa facilité d’utilisation et son intégration avec MVD. Donc des outils de type MLR (Multiple Linear Regression), PCR (Principal Component Regression), PLS (Partial Least Squares), NN (Neural Networks) et SVM (Suport Vector Machines) étaient disponibles et intégrés avec le processus de docking. Ce qui faisait de l’ensemble, un outil de QSAR remarquable, orienté descripteurs et ouvert.

4. Le ‘client’ léger

Ce n’est pas à proprement parler un client car il ne fonctionne pas en mode client-serveur, mais un programme indépendant Molegro Molecular Viewer (MMV) qui va utiliser les données du disque local. Il y a un autre intérêt à cet écosystème à deux logiciels en plus de la gestion des licences et du phasage ‘calcul – analyses’: nous pouvons aussi découpler les OS. En d’autres termes, les calculs réalisés dans un environnement (MS Windows ou Linux) peuvent être analysés via une plateforme associée à un autre système d’exploitation. Dans les processus de recherche in silico, il y a toujours trois composantes: sciops et dev. Si l’un de ces trois piliers n’est pas bien traité, nous nous enfoncerons inévitablement dans des usines à gaz, qu’il vaudrait mieux réserver à des situations limites.

5. Conclusion

De mon point de vue, il manquait des outils chimiques pour la conception, quelques outils de dynamique moléculaire pour une évaluation des poses (stabilité, énergies), gérer des liaisons datives (complexes avec des métaux), mais les autres logiciels ne faisaient pas mieux … Ceci dit, un module d’extension KNIME (Konstanz Information Miner) existait, ce qui était bien vu et ouvrait la possibilité d’associer des bases locales (chimiothèques ou ligandothèques) dans un workflow.
Mais pour le reste, Molegro avait de quoi inquiéter toutes les suites logicielles, même plus réputées, dans le le domaine.

Liens et lectures
Retour en haut