6. Conclusion
Nous avons donc pu transformer un custom report (RCSB) PDB en structures de données CSV, CSVM et finalement Excel XLSM. A partir de CSVM nous pourrions aller vers une table javascript dynamique, utilisant également des composants d’affichage pour la structure des ligands, ou l’import dans un SGBDR classique ou chimique. En restant dans le cadre d’une analyse structurale manuelle, nous avons pu créer une table Excel cliquable qui facilite l’analyse structurale et est ouverte en écriture pour des annotations ou de la classification, avec analyse manuelle des structures.
Etapes ultérieures
Dans le cadre d’une analyse structurale nous avons plusieurs catégories d’annotations (à intégrer dans la table Excel en ajoutant des colonnes) qui nous permettent de mettre en place un filtrage des structures, par exemple :
- Sélection du domaine pour les structures complexes, par exemple dans le cas Tk, nous ne prendrons pas les structures correspondant à la partie transmembranaire et au delà.
- Choix d’une sous chaine (A, B, C … ) pour représenter la structure, résolution de la structure …
- Filtrage des zones non structurées (abusivement pseudo délétions : absence de coordonnées moléculaires) ou de résidus incomplets (par exemple abscence de coordonnées pour la chaine latérale).
- Est ce que ces anomalies sont trop proches du site de liaison cible ? Est ce qu’elles sont révélatrices d’un repliement problématique (misfolding ou autre) ? Si oui ces structures seront filtrées s’il y en a d’autres, plus complètes ou moins critiquables.
- Sélection des formes sauvages (wildtype) ou correspondant à des mutants d’intérêt.
- Sélection/filtrages des types enzymatiques, isoenzymes, structure ligandée ou non, apoenzymes, enzymes avec le substrat ou un analogue de substrat …
Ce n’est pas exhaustif et cela dépends du problème traité. En termes de classification, les structures retenues après annotation, vont être comparées (ex: via UCSF Chimera/Matchmaker) vis à vis d’une structure de référence (la plus complète possible). Dans l’idéal on devrait comparer aussi les chaînes entre elles pour une même entrée. Dans certains cas nous pouvons nous en passer en sélectionnant celle qui est le plus complètement ligandée et sans parties non structurées. Dans d’autres cas il faudra faire ce travail, car il y aura des informations à en tirer.
Au final, l’objectif est de d’identifier des structures pivots (par exemple : site ouvert, site fermé, boucle levée, boucle repliée …) correspondant à une dynamique structurale, à une adaptation induite, à une réponse allostérique …
Nous avons donc plusieurs niveaux de filtrage, de manière à obtenir un jeu de structures utilisables pour les calculs d’arrimage moléculaire, à partir d’une démarche rigoureuse (au lieu de sélectionner la structure de meilleure résolution comme on le voit trop souvent encore). Ce travail se fait également en relation avec les publications correspondantes, car les auteurs donnent souvent des éléments d’analyse qui nous permettent d’appréhender la dynamique structurale.
Dans le cas de cette collection Tk nous avons à peu près 80% des structures présentant une anomalie de type pseudo délétion et pour beaucoup nous pouvons suspecter qu’il y a une relation sur la structure de boucles proches du site actif. Bien que l’impact au cœur du site soit mineur, celui ci est conservé, les ligands s’alignent (par exemple dans un même plan) puisque les structures sont alignées.
Automatisation ?
C’est possible si nous disposons d’un parseur PDB capable de le faire, mais ce n’est pas un processus simple, car il faut prendre en compte l’ensemble des anomalies et exceptions (notamment de notation) présentes dans les fichiers PDB ou CIF. Le paquetage buildez.pdb est développer pour répondre à ce type d’enjeu. Sans connaissances préalables, nous allons pouvoir séparer les chaines et injecter des informations telles que les résidus incomplets ou pseudo délétions, la présence de ligands et leur qualité (euligands, artefacts de cristallisation, distance de certains résidus marqueurs du site actif).
Si nous savons quoi regarder, par exemple une distance entre deux motifs structuraux typiques, nous pouvons combiner des mesures pour réaliser une classification structurale sans comparer les structures. Et ces règles seront faciles à encoder, CSVM pourra être utilisé avec profit aussi. Au final, nous pourrons obtenir un jeu de structures à comparer, et différents niveaux d’annotation pour toutes les structures. Il sera quand même souhaitable d’aligner les structures résultantes, au moins pour l’analyse des fluctuations au niveau des ligands, mais le jeu d’opérations manuelle sera plus réduit. Constituer en amont une collection restera très intéressant, car elle servira de guide à un processus informatique (data driven) et de réceptacle pour les annotations issues de ce processus.