2. Aux formats SMILES et InChI

Nous avons heureusement cette possibilité, chaque fichier correspond à un format CSV non annoté, délimité par des tabulations, constitué de 3 champs: formule développée, identifiant de résidu, nom commun ou nom type IUPAC (IUPAC pour International Union of Pure and Applied Chemistry).

Par exemple, pour le TCL (triclosan, 5-chloro-2-(2,4-dichlorophenoxy)phenol, 1P45 …) et le TCU (PT70, dérivé de triclosan, 2X22, 2X23 …) nous avons :

`c1cc(c(cc1Cl)O)Oc2ccc(cc2Cl)Cl`	TCL	triclosan
`CCCCCCc1ccc(c(c1)O)Oc2ccccc2C`	TCU	5-hexyl-2-(2-methylphenoxy)phenol

Dans le troisième champ nous avons l’un ou l’autre des noms, en fonction de la molécule. Si on veut fusionner des données avec une systématique IUPAC, il faudra utiliser des outils pour compléter les entrées qui n’ont que les noms communs de molécules.

Nous avons 5 déclinaisons de fichiers et de formats pour les formules développées, bâtis sur le même principe :

SMILES (OpenEye with stereo) [ https://files.wwpdb.org/pub/pdb/data/monomers/Components-smiles-stereo-oe.smi ].
SMILES (OpenEye) [ https://files.wwpdb.org/pub/pdb/data/monomers/Components-smiles-oe.smi ].
SMILES (CACTVS with stereo) [ https://files.wwpdb.org/pub/pdb/data/monomers/Components-smiles-stereo-cactvs.smi ].
SMILES (CACTVS) [ https://files.wwpdb.org/pub/pdb/data/monomers/Components-smiles-cactvs.smi ].
InChI [ https://files.wwpdb.org/pub/pdb/data/monomers/Components-inchikey.ich ].
InChIKey [ https://files.wwpdb.org/pub/pdb/data/monomers/Components-inchikey.ich ].

Mais nous notons que les fichiers ne contiennent pas tous le même nombre d’objets ou de lignes, il faudra en tenir compte si on fusionne les données entre ces différentes sources.

Fichier	Nombre apparent d’entrées
`components-pub.sdf`	46932
`Components-smiles-stereo-oe.smi`	47098
`Components-smiles-oe.smi`	47098
`Components-smiles-stereo-cactvs.smi`	47118
`Components-smiles-cactvs.smi`	47118

Différences avec pdb.hcd

Dans l’ancienne version pdb.hcd nous avions aussi des différences dans les fichiers, elles étaient essentiellement liées à des erreurs. Par exemple pour le composé 01S, nous avions :

Cn1c(ccc1C(=N)N)CN 01Q 5-(aminomethyl)-1-methyl-1h-pyrrole-2-carboximidamide

c1cnccc1NCCN 01R n-(pyridin-4-yl)ethane-1,2-diamine 01S n-[(2r)-2-(hydroxycarbamoyl)-4-methylpentanoyl]-l-alanylglycinamide

CCc1c(c(c(c(n1)CC(C)(C)C)CN)c2ccc(cc2)C)CC(=O)O 01T [5-(aminomethyl)-6-(2,2-dimethylpropyl)-2-ethyl-4-(4-methylphenyl)pyridin-3-yl]acetic acid

Un examen attentif montre qu’il manque le saut de ligne entre les lignes 01R et 01S, parfois c’était un saut de ligne en trop. Pour d’autres, il manquait la chaine SMILES, par exemple pour 0D3 :

1	0D3 n-[(2s)-2-benzyl-3-sulfanylpropanoyl]-l-alanylglycinamide

Pour la petite histoire, il y avait aussi les deux composés ‘inconnus’ UNL et UNX :

1 2	#* UNL unknown ligand #* UNX unknown atom or ion

Les données ont été revues dans pdb.ccd, il n’y a plus d’erreur de saut de ligne.

J’avais (forcément) un outil qui me permettait de détecter les erreurs dans pdb.hcd et il est tentant de prendre le catalogue d’erreurs et de voir ce qui a été corrigé. Par exemple le ligand GRP n’existait plus dans l’interface web, mais apparaît toujours dans les dictionnaires. Ceci dit, ceci peut s’expliquer, ce composé n’était pas présent dans un fichier PDB, il s’agit d’une vraie correction.

D’autres composés ont disparu, et nous allons voir qu’il ne s’agit pas d’erreurs.

nb: A la date d’édition de l’article, je n’ai pas encore réalisé un traitement qui me permettrait de faire un diagnostic complet en vue d’une fusion des données.

Liens et lectures

Nomenclature de l’IUCPA [ https://fr.wikipedia.org/wiki/Nomenclature_de_l%27UICPA ].
Le guide Formats Moléculaires [ https://buildblog.buildez.fr/formats-moleculaires-chimie/ ] sur ce blog.

Pages : 1 2 3 4 5 6