2. Via PDBeChem

Nous pouvons utiliser aussi utiliser PDBeChem (Protein Data Bank in Europe) qui présente une interface d’interrogation simple et pratique. Nous pouvons chercher par code, nom usuel, formule brute, par groupe fonctionnel (choix limité) par sous-structure soit en collant une chaine SMILES soit en utilisant un éditeur popup Javascript type JSME [Bienfait_2013] pour dessiner le fragment. Nous pouvons aussi accéder au ligand directement via l’URL, par exemple [ https://www.ebi.ac.uk/pdbe-srv/pdbechem/chemicalCompound/show/TCL ] pour le TCL.

Nous retrouvons le même type d’informations, notamment les synonymes, chaines SMILES ou InChI. Avec plusieurs types de représentations : atomes avec labels (numéros d’atomes), sans labels, mais aussi avec la signalisation de fragments : groupes fonctionnels (phényles) ou fragments/squelettes de Murcko [Bemis_1996 – https://pubs.acs.org/doi/10.1021/jm9602928] (aryl éther plus les deux phényles).

D’une manière générale PDBeChem donne plus d’informations que rscb.ligand, nous le constatons au niveau des propriétés physicochimiques ou il y a plus de descripteurs, par exemple le nombre de torsions (rotatable bonds), le nombre d’atomes lourds, la valeur de TPSA (topological polar surface area), le nombre d’atomes donneurs ou accepteurs pour les liaisons hydrogènes … C’est aussi le cas, concernant les pointeurs vers d’autres bases de données ou nous avons en plus ZINC, la BindingDb, PubChem …


Fiche et descripteurs	Pointeurs vers d’autres bases de données

Ideal conformer vs. Model conformer

Nous avons aussi la possibilité de télécharger le TCL au format SDF, mais avec deux options : Ideal conformer et Model conformer. Nous pouvons les comparer sous DiscoveryStudio en superposant les deux molécules par le premier cycle aromatique, celui qui possède les deux chlores :

En jaune nous avons la structure optimisée (Ideal conformer), nous notons que le second cycle n’est pas dans le même plan que l’autre. Nous notons aussi que le OH pointe vers l’arrière alors que dans la structure Model conformer, il pointe vers l’avant, c’est en général ce que nous avons pour le triclosan dans les structures PDB.

Ideal coordinates are calculated by software based on the known covalent geometry (typically using the Molecular Networks Corina or OpenEye Omega programs). These coordinates are often used in modeling applications where researchers want to minimize any deviations from ideal geometry that may be present in experimental structure determinations. Experimental coordinates are taken from the first entry in which the component was observed, and as such can represent the conformation that the ligand adopts upon binding to a macromolecule.

En utilisant rscb.ligand, nous n’avions la possibilité de télécharger que la structure idéale. Pour plus d’informations il sera utile de consulter le site PDB-101 [ https://pdb101.rcsb.org/learn/guide-to-understanding-pdb-data/small-molecule-ligands ].

Macromolécules cibles

Une autre différence avec rscb.ligand est que nous avons accès au structures de macromolécules liant le TCL, mais sous forme de domaines UniProt (colonne Protein Overview) en activant le regroupement par protéines, au lieu d’une liste d’entrées PDB (regroupement par structures). Une chose qui peut être très intéressante, car nous avons un premier tri, que nous pouvons également doubler avec les numéros dans la nomenclature des enzymes (colonne EC number).

Nous retrouvons le même nombre de structures (34 à la date d’édition de l’article) que dans la recherche précédente, ce qui est normal.

Recherche de ligands ‘voisins’

C’est ici ou nous avons une différence notable avec rscb.ligand (nous avions 17 composés possibles avec la recherche rapide). Ici, nous avons accès à deux type de recherches par similarité : soit par sous-structure, soit par squelette (scaffold) basé sur le fragment de Murcko correspondant (diarylether). Dans les images suivantes, nous avons le squelette correspondant qui est mis en évidence en jaune pour toutes les molécules ‘voisines’ obtenues :


Recherche par sous-structure (34 molécules)	Recherche par squelette (118 molécules)

Et nous obtenons plus de composés, ce qui est intéressant, au moins pour avoir une vue synthétique sur les variations (décorations) qui existent autour du squelette. Malheureusement ces touches ne sont pas téléchargeables à un format SDF, donc pas directement exploitables.

Mais, un fichier related-ligands.json est produit au format JSON. Nous pouvons examiner ce fichier, en nous focalisant sur le JPL, un analogue du TCL :

`{` `"chem_comp_id": "JPL",` `"name": "5-(cyclohexylmethyl)-2-(2,4-dichlorophenoxy)phenol",` `"similarity_score": 0.667,` `"substructure_match": [` `"C12",` `"C11",` `"C10",` `"C9",` `"C8",` `"C7",` `"CL1",` `"O1",` `"C3",` `"C2",` `"C1",` `"C6",` `"C5",` `"C4",` `"C18",` `"O2",` `"CL5"` `]` `}`
Entrée JPL du fichier JSON	Numérotation des atomes du JPL

Nous constatons que les numéros d’atomes impliqués dans la correspondance, sont ceux correspondant au TCL, il n’y a que le carbone 18 et le cyclohexane qui ne matchent pas. Il faut toujours faire attention à la numérotation des atomes, mais celle ci est homogène entre rscb.ligand et PDBeChem.

Pour récupérer la formule développée de l’ensemble des composés allumés, il faudra parser le fichier JSON, en extraire la valeur de chem_comp_id pour chaque molécule, puis s’en servir pour aller chercher la structure (en ligne ou via un dictionnaire) au format SMILES ou MDL Mol, puis transformer la liste de molécules en fichier SDF.

Statistiques d’interaction

Nous avons aussi un bilan d’interactions pour la molécule, avec différentes interactions que l’on peut sélectionner, pour un atome en particulier du ligand ou tous les atomes. Ces données sont calculées pour toutes les structures protéiques dans lesquelles le ligand intervient, dans le cas du TCL : 120 instances du ligand, dans 22 types protéiques distincts et 34 structures PDB.

Une évolution du programme PDBe Arpeggio [Jubb_2027 – https://doi.org/10.1111/j.1747-0285.2008.00762.x] est utilisée, il s’agit d’un outil Python qui travaille sur les fichiers mmCIF et calcule les contacts interatomiques selon les règles définies dans CREDO [Jubb_2027 – https://doi.org/10.1111/j.1747-0285.2008.00762.x]. Le code est basé sur OpenBabel, Biopython et Gemmi, une bibliothèque C++/Python dédiée à la cristallographie. Le programme est disponible dans le dépôt conda-forge et via un serveur web qui peut lire les fichiers PDB.

Au niveau des interactions, les possibilités sont très intéressantes, si nous reprenons la documentation d’Arpeggio nous avons une trentaine d’interactions :

De type atome-atome, par exemple un clash stérique, liaisons hydrogènes, hydrophobiques, métal, covalent …
De type atome-plan , par exemple pi-cation.
De type groupe-groupe ou plan, amide-amide et amide-ring.
Avec des molécules d’eau ou d’autres entités.

Le programme exporte au format JSON, si nous examinons le fichier interaction_TCL.json, en focalisant sur les liaisons hydrogènes, nous obtenons :

"hbond": [

{

"atom": "O17",

"residue": "HIS",

"count": 1

{

"atom": "O17",

"residue": "TYR",

"count": 54

}

Nous constatons que l’oxygène 17 (celui portant la fonction OH) du triclosan interagit beaucoup avec les tyrosines et histidines, ce que nous constatons avec InhA pour la TYR158, l’interaction avec ce résidu est systématique.

Des questions

Ceci dit, les calculs sont faits pour l’ensemble des protéines liées au TCL, dont certaines sont éloignées de InhA. Ce qui est une avantage (permettre d’avoir d’autres idées sur les modes de liaison) mais aussi un désavantage dans le cadre d’une étude structurale. Il y aussi une autre question, InhA est une protéine avec un cofacteur NAD+/NADH, qui entre en jeu dans la réaction enzymatique. Le TCL en tant qu’inhibiteur direct est en interaction systématique avec le NAD, notamment deux liaisons hydrogène qui engagent l’alcool (vis à vis de la partie nicotinamide) et l’oxygène de l’éther (vis à vis d’un OH du ribose).

Dans PDBeChem, les interactions via Arpeggio ne semblent calculées que pour la partie protéique, un résidu de nom NAD n’apparaît pas dans le bilan. Dans l’interface web, nous pouvons utiliser la chaine A de 1P45 puis sélectionner NAD et TCL en tant que résidus, mais ceux ci seront traités comme des molécules distinctes, les interactions hydrogènes TCL-NAD n’apparaissent pas. Il en est de même si on sélectionne toute la chaine A.

3. Conclusion

Nous avons donc deux options pour chercher ponctuellement et manuellement des ligands dans la PDB, avec des apports d’informations différents. On peut les compléter par l’utilisation de dictionnaires de composés chimiques qui regroupent l’ensemble des ligands de cette base.
En termes de fonctionnalités supplémentaires, telles que des les patrons d’interactions, nous constatons quelques limites. Mais la prise en compte des molécules supplémentaires, autres que métaux, dans le site de liaison est souvent un point faible de ce type de programmes (détection ou visualisation). En limitant le nombre de types d’interactions, avec buildez.pdb nous pourrions reproduire certaines fonctionnalités d’Arpeggio, tout en étant capable de prendre en compte les cas ou plusieurs ligands sont en interaction mutuelle dans la structure PDB. Tout en sortant du système JSON, qui n’est pas pratique à lire par des humains, un format tabulaire type CSVM pourrait être facilement implémenté.

Liens et lectures

[Bienfait_2013] Bienfait B, Ertl P. JSME: a free molecule editor in JavaScript (2013) J. Cheminform. 5:24.
[Bemis_1996 – https://pubs.acs.org/doi/10.1021/jm9602928] Guy W. Bemis GW, Murcko MA. The Properties of Known Drugs. 1. Molecular Frameworks (1996) J. Med. Chem. 39:15, 2887-2893.
PDBe Arpeggio [ https://github.com/PDBeurope/arpeggio ] et [ https://github.com/harryjubb/arpeggio ].
[Jubb_2027 – https://doi.org/10.1111/j.1747-0285.2008.00762.x] Jubb HC, Higueruelo AP, Ochoa-Montaño B, Pitt WR, Ascher DB, Blundell TL. Arpeggio: A Web Server for Calculating and Visualising Interatomic Interactions in Protein Structures (2017) J. Mol. Biol. 429:3, 365-371.
Interaction statistics [ https://github.com/PDBe-KB/pdbe-kb-manual/wiki/Interaction-statistics ].
Arpeggio – A webserver for calculating interatomic interactions in protein structures [ https://biosig.lab.uq.edu.au/arpeggioweb/ ].
[Jubb_2027 – https://doi.org/10.1111/j.1747-0285.2008.00762.x] Schreyer A, Blundell T. CREDO: a protein-ligand interaction database for drug discovery (2009) Chem. Biol. Drug. Des. 73:2, 157-167.
Gemmi documentation [ https://gemmi.readthedocs.io/en/latest/ ].

Pages : 1 2