2. Aux formats SMILES et InChI
Nous avons heureusement cette possibilité, chaque fichier correspond à un format CSV non annoté, délimité par des tabulations, constitué de 3 champs: formule développée, identifiant de résidu, nom commun ou nom type IUPAC (IUPAC pour International Union of Pure and Applied Chemistry).
Par exemple, pour le TCL (triclosan, 5-chloro-2-(2,4-dichlorophenoxy)phenol, 1P45 …) et le TCU (PT70, dérivé de triclosan, 2X22, 2X23 …) nous avons :
c1cc(c(cc1Cl)O)Oc2ccc(cc2Cl)Cl |
TCL | triclosan |
CCCCCCc1ccc(c(c1)O)Oc2ccccc2C |
TCU | 5-hexyl-2-(2-methylphenoxy)phenol |
Dans le troisième champ nous avons l’un ou l’autre des noms, en fonction de la molécule. Si on veut fusionner des données avec une systématique IUPAC, il faudra utiliser des outils pour compléter les entrées qui n’ont que les noms communs de molécules.
Nous avons 5 déclinaisons de fichiers et de formats pour les formules développées, bâtis sur le même principe :
- SMILES (OpenEye with stereo) [ https://files.wwpdb.org/pub/pdb/data/monomers/Components-smiles-stereo-oe.smi ].
- SMILES (OpenEye) [ https://files.wwpdb.org/pub/pdb/data/monomers/Components-smiles-oe.smi ].
- SMILES (CACTVS with stereo) [ https://files.wwpdb.org/pub/pdb/data/monomers/Components-smiles-stereo-cactvs.smi ].
- SMILES (CACTVS) [ https://files.wwpdb.org/pub/pdb/data/monomers/Components-smiles-cactvs.smi ].
- InChI [ https://files.wwpdb.org/pub/pdb/data/monomers/Components-inchikey.ich ].
- InChIKey [ https://files.wwpdb.org/pub/pdb/data/monomers/Components-inchikey.ich ].
Mais nous notons que les fichiers ne contiennent pas tous le même nombre d’objets ou de lignes, il faudra en tenir compte si on fusionne les données entre ces différentes sources.
| Fichier | Nombre apparent d’entrées |
components-pub.sdf |
46932 |
Components-smiles-stereo-oe.smi |
47098 |
Components-smiles-oe.smi |
47098 |
Components-smiles-stereo-cactvs.smi |
47118 |
Components-smiles-cactvs.smi |
47118 |
Différences avec pdb.hcd
Dans l’ancienne version pdb.hcd nous avions aussi des différences dans les fichiers, elles étaient essentiellement liées à des erreurs. Par exemple pour le composé 01S, nous avions :
|
1 2 3 |
Cn1c(ccc1C(=N)N)CN 01Q 5-(aminomethyl)-1-methyl-1h-pyrrole-2-carboximidamide c1cnccc1NCCN 01R n-(pyridin-4-yl)ethane-1,2-diamine 01S n-[(2r)-2-(hydroxycarbamoyl)-4-methylpentanoyl]-l-alanylglycinamide CCc1c(c(c(c(n1)CC(C)(C)C)CN)c2ccc(cc2)C)CC(=O)O 01T [5-(aminomethyl)-6-(2,2-dimethylpropyl)-2-ethyl-4-(4-methylphenyl)pyridin-3-yl]acetic acid |
Un examen attentif montre qu’il manque le saut de ligne entre les lignes 01R et 01S, parfois c’était un saut de ligne en trop. Pour d’autres, il manquait la chaine SMILES, par exemple pour 0D3 :
|
1 |
0D3 n-[(2s)-2-benzyl-3-sulfanylpropanoyl]-l-alanylglycinamide |
Pour la petite histoire, il y avait aussi les deux composés ‘inconnus’ UNL et UNX :
|
1 2 |
#* UNL unknown ligand #* UNX unknown atom or ion |
Les données ont été revues dans pdb.ccd, il n’y a plus d’erreur de saut de ligne.
J’avais (forcément) un outil qui me permettait de détecter les erreurs dans pdb.hcd et il est tentant de prendre le catalogue d’erreurs et de voir ce qui a été corrigé. Par exemple le ligand GRP n’existait plus dans l’interface web, mais apparaît toujours dans les dictionnaires. Ceci dit, ceci peut s’expliquer, ce composé n’était pas présent dans un fichier PDB, il s’agit d’une vraie correction.
D’autres composés ont disparu, et nous allons voir qu’il ne s’agit pas d’erreurs.
nb: A la date d’édition de l’article, je n’ai pas encore réalisé un traitement qui me permettrait de faire un diagnostic complet en vue d’une fusion des données.
Liens et lectures
- Nomenclature de l’IUCPA [ https://fr.wikipedia.org/wiki/Nomenclature_de_l%27UICPA ].
- Le guide Formats Moléculaires [ https://buildblog.buildez.fr/formats-moleculaires-chimie/ ] sur ce blog.