3. Dictionnaire BIRD
Si nous reprenons le composé 01S, nous constatons qu’il a disparu, dans les fichiers SMILES, nous passons directement au 01T :
|
1 2 |
c1cnccc1NCCN 01R n-(pyridin-4-yl)ethane-1,2-diamine CCc1c(c(c(c(n1)CC(C)(C)C)CN)c2ccc(cc2)C)CC(=O)O 01T [5-(aminomethyl)-6-(2,2-dimethylpropyl)-2-ethyl-4-(4-methylphenyl)pyridin-3-yl]acetic acid |
Alors que 01S est présent dans une recherche via l’interface Web de la PDB, ou directement via [ https://www.rcsb.org/ligand/01S ] avec les mêmes informations que les autres ligands.
Si nous portons attention à quelques produits qui provoquaient des erreurs dans pdb.hcd nous avons :
Nous constatons qu’il s’agit de molécules marquées comme analogues de peptides et qui apparaissent dans un autre dictionnaire. Par exemple pour 01S, nous avons la mention : 01S/PRD_000230 is described in the Biologically Interesting Molecule Reference Dictionary (BIRD).
The Biologically Interesting molecule Reference Dictionary (BIRD) contains information about certain biologically interesting molecules in the PDB archive such as peptide-like antibiotics, peptide-like inhibitors, and common oligosaccharides.
Il est possible de télécharger l’ensemble de cette base, qui est organisée en famille et produits, sous la forme de 5 fichiers tar.gz: family-all.cif.gz, family-split.tarf.gz, prdcc-all.cif.gz, prdcc-split.tarf.gz, prd-all.cif.gz, prd-split.tarf.gz. Les fichiers -split correspondent à une arborescence ou nous avons un fichier au format CIF pour chaque composé. Le contenu de ce type de fichier est décrit dans la documentation de BIRD.
Une entrée BIRD/pdb.ccd mixte
Si nous prenons le cas de nos trois molécules précédentes, nous les trouvons dans le fichier prd-all.cif/prd-all.cif ou dans le répertoire prd-split.tar/data/rcsb/update_service/data/bird-v1/prd-tmp-split. Pour 01S nous avons un fichier PRD_000230.cif typique :
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 |
data_PRD_000230 # _pdbx_reference_molecule.prd_id PRD_000230 _pdbx_reference_molecule.name "N-[(2R)-2-(hydroxycarbamoyl)-4-methylpentanoyl]-L-alanylglycinamide" _pdbx_reference_molecule.represent_as "single molecule" _pdbx_reference_molecule.type Peptide-like _pdbx_reference_molecule.type_evidence_code ? _pdbx_reference_molecule.class Inhibitor _pdbx_reference_molecule.class_evidence_code ? _pdbx_reference_molecule.formula "C12 H22 N4 O5" _pdbx_reference_molecule.formula_weight 302.327 _pdbx_reference_molecule.chem_comp_id 01S _pdbx_reference_molecule.release_status REL _pdbx_reference_molecule.replaces ? _pdbx_reference_molecule.replaced_by ? _pdbx_reference_molecule.compound_details ? _pdbx_reference_molecule.description ? _pdbx_reference_molecule.representative_PDB_id_code 1jaq # _pdbx_reference_entity_subcomponents.prd_id PRD_000230 _pdbx_reference_entity_subcomponents.seq "HMI ALA GLY NH2" _pdbx_reference_entity_subcomponents.chem_comp_id 01S # _pdbx_reference_entity_list.prd_id PRD_000230 _pdbx_reference_entity_list.ref_entity_id 1 _pdbx_reference_entity_list.component_id 1 _pdbx_reference_entity_list.type polymer-like _pdbx_reference_entity_list.details . # _pdbx_reference_entity_poly.prd_id PRD_000230 _pdbx_reference_entity_poly.ref_entity_id 1 _pdbx_reference_entity_poly.type peptide-like _pdbx_reference_entity_poly.db_code ? _pdbx_reference_entity_poly.db_name ? # _pdbx_reference_entity_sequence.prd_id PRD_000230 _pdbx_reference_entity_sequence.ref_entity_id 1 _pdbx_reference_entity_sequence.type peptide-like _pdbx_reference_entity_sequence.NRP_flag N # loop_ _pdbx_reference_entity_poly_seq.prd_id _pdbx_reference_entity_poly_seq.ref_entity_id _pdbx_reference_entity_poly_seq.num _pdbx_reference_entity_poly_seq.mon_id _pdbx_reference_entity_poly_seq.parent_mon_id _pdbx_reference_entity_poly_seq.hetero _pdbx_reference_entity_poly_seq.observed PRD_000230 1 1 HMI . N Y PRD_000230 1 2 ALA ALA N Y PRD_000230 1 3 GLY GLY N Y PRD_000230 1 4 NH2 . N Y # loop_ _pdbx_reference_entity_poly_link.prd_id _pdbx_reference_entity_poly_link.ref_entity_id _pdbx_reference_entity_poly_link.component_id _pdbx_reference_entity_poly_link.link_id _pdbx_reference_entity_poly_link.atom_id_1 _pdbx_reference_entity_poly_link.comp_id_1 _pdbx_reference_entity_poly_link.entity_seq_num_1 _pdbx_reference_entity_poly_link.atom_id_2 _pdbx_reference_entity_poly_link.comp_id_2 _pdbx_reference_entity_poly_link.entity_seq_num_2 _pdbx_reference_entity_poly_link.value_order _pdbx_reference_entity_poly_link.details _pdbx_reference_entity_poly_link.insert_code_1 _pdbx_reference_entity_poly_link.insert_code_2 PRD_000230 1 1 1 C HMI 1 N ALA 2 SING ? ? ? PRD_000230 1 1 2 C ALA 2 N GLY 3 SING ? ? ? PRD_000230 1 1 3 C GLY 3 N NH2 4 SING ? ? ? # loop_ _pdbx_prd_audit.prd_id _pdbx_prd_audit.date _pdbx_prd_audit.processing_site _pdbx_prd_audit.action_type PRD_000230 2012-02-08 RCSB "Create molecule" PRD_000230 2012-05-01 RCSB "Other modification" PRD_000230 2012-07-09 PDBE "Other modification" PRD_000230 2012-12-12 RCSB "Initial release" PRD_000230 2023-09-20 PDBE "Modify audit" |
Nous y trouvons une pseudo séquence 'HMI ALA GLY NH2' ou HMI est un code de résidu non standard, et d’autres informations. Mais nous n’y trouvons pas de coordonnée moléculaires, ni de chaines SMILES/InChI car le composé est déjà indexé ailleurs sous la référence 01S. Et nous retrouvons cette référence au début du fichier CIF dans le champ _pdbx_reference_molecule.chem_comp_id.
Il est donc possible, pour ce type de molécules de faire la correspondance BIRD et pdb.dcc. Par contre, ces molécules seront absentes de la branche prdcc.
Une entrée BIRD unique
Il existe aussi des entrées BIRD, qui ne sont pas incluses dans l’espace pdb.ccd. Si nous prenons la première entrée PRD_000001 qui correspond à l’actinomycine D, un anticancéreux, nous obtenons un entête sans correspondance avec un nom de résidu à trois lettres :
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 |
data_PRD_000001 # _pdbx_reference_molecule.prd_id PRD_000001 _pdbx_reference_molecule.name "Actinomycin D" _pdbx_reference_molecule.represent_as polymer _pdbx_reference_molecule.type Polypeptide _pdbx_reference_molecule.type_evidence_code ? _pdbx_reference_molecule.class Antibiotic _pdbx_reference_molecule.class_evidence_code ? _pdbx_reference_molecule.formula "C62 H86 N12 O16" _pdbx_reference_molecule.formula_weight 1255.5 _pdbx_reference_molecule.chem_comp_id ? _pdbx_reference_molecule.release_status REL _pdbx_reference_molecule.replaces ? _pdbx_reference_molecule.replaced_by ? _pdbx_reference_molecule.compound_details ;ACTINOMYCIN D IS A BICYCLIC PEPTIDE, A MEMBER OF THE ACTINOMYCIN FAMILY. HERE, ACTINOMYCIN D IS REPRESENTED BY THE SEQUENCE (SEQRES) ; _pdbx_reference_molecule.description ;ACTINOMYCIN D CONSISTS OF TWO PENTAMER RINGS LINKED BY THE CHROMOPHORE (PXZ) ; _pdbx_reference_molecule.representative_PDB_id_code 1a7y |
Effectivement le champ .chem_comp_id n’est pas renseigné. Cette molécule apparaît dans la structure 1A7Y qui correspond au cristal de l’actinomycine D seule, sans référence à un identifiant de composé au sens pdb.ccd. Il en est de même pour la structure 173D qui correspond à un complexe entre la molécule et un oligonucléotide sous forme double brin.
Si on s’intéresse à la branche prdcc, nous avons l’actinomycine D dans prdcc-all.cif/prdcc-rel.cif avec des blocs de coordonnées moléculaires et de connectivité, qui n’apparaissaient pas pour 01S :
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 |
_chem_comp_atom.pdbx_backbone_atom_flag _chem_comp_atom.pdbx_n_terminal_atom_flag _chem_comp_atom.pdbx_c_terminal_atom_flag PRD_000001 N1 N1 N 0 1 N N N 11.239 9.853 11.574 -3.435 1.510 0.228 THR 1 N polymer 1 1 1 ? ? ? PRD_000001 C1 C1 C 0 1 N N S 12.334 9.171 10.911 -3.420 0.851 1.536 THR 1 CA polymer 1 1 2 ? ? ? PRD_000001 C2 C2 C 0 1 N N N 12.770 10.028 9.704 -3.606 -0.633 1.354 THR 1 C polymer 1 1 3 ? ? ? PRD_000001 O1 O1 O 0 1 N N N 12.014 10.868 9.208 -4.601 -1.188 1.771 THR 1 O polymer 1 1 4 ? ? ? PRD_000001 C3 C3 C 0 1 N N R 11.959 7.792 10.343 -4.554 1.406 2.399 THR 1 CB polymer 1 1 5 ? ? ? ... PRD_000001 H84 H84 H 0 0 N N N 19.983 16.816 14.976 10.470 -3.317 -0.955 MVA 11 HG21 polymer 1 1 174 ? ? ? PRD_000001 H85 H85 H 0 0 N N N 19.146 16.399 13.442 10.524 -4.616 -2.171 MVA 11 HG22 polymer 1 1 175 ? ? ? PRD_000001 H86 H86 H 0 0 N N N 18.264 17.278 14.737 10.030 -2.973 -2.645 MVA 11 HG23 polymer 1 1 176 ? ? ? # loop_ _chem_comp_bond.comp_id _chem_comp_bond.atom_id_1 _chem_comp_bond.atom_id_2 _chem_comp_bond.value_order _chem_comp_bond.pdbx_aromatic_flag _chem_comp_bond.pdbx_stereo_config _chem_comp_bond.pdbx_ordinal PRD_000001 N1 C1 SING N N 1 PRD_000001 N1 H1 SING N N 2 PRD_000001 C1 C2 SING N N 3 PRD_000001 C1 C3 SING N N 4 ... PRD_000001 C48 N10 SING N N 180 PRD_000001 C50 N11 SING N N 181 PRD_000001 C55 N12 SING N N 182 # loop_ _pdbx_chem_comp_descriptor.comp_id _pdbx_chem_comp_descriptor.type _pdbx_chem_comp_descriptor.program _pdbx_chem_comp_descriptor.program_version _pdbx_chem_comp_descriptor.descriptor PRD_000001 SMILES ACDLabs 12.01 "O=C2N1CCCC1C(=O)N(C)CC(=O)N(C)C(C(=O)OC(C)C(C(=O)NC2C(C)C)NC(=O)c3ccc(c4OC5=C(C(=O)C(N)=C(C5=Nc34)C(=O)NC7C(=O)NC(C(=O)N6CCCC6C(=O)N(C)CC(=O)N(C)C(C(=O)OC7C)C(C)C)C(C)C)C)C)C(C)C" PRD_000001 InChI InChI 1.03 "InChI=1S/C62H86N12O16/c1-27(2)42-59(84)73-23-17-19-36(73)57(82)69(13)25-38(75)71(15)48(29(5)6)61(86)88-33(11)44(55(80)65-42)67-53(78)35-22-21-31(9)51-46(35)64-47-40(41(63)50(77)32(10)52(47)90-51)54(79)68-45-34(12)89-62(87)49(30(7)8)72(16)39(76)26-70(14)58(83)37-20-18-24-74(37)60(85)43(28(3)4)66-56(45)81/h21-22,27-30,33-34,36-37,42-45,48-49H,17-20,23-26,63H2,1-16H3,(H,65,80)(H,66,81)(H,67,78)(H,68,79)/t33-,34-,36+,37+,42+,43-,44+,45-,48?,49+/m1/s1" PRD_000001 InChIKey InChI 1.03 RJURFGZVJUQBHK-VSWUTOEJSA-N PRD_000001 SMILES_CANONICAL CACTVS 3.370 "CC(C)[C@H]1NC(=O)[C@@H](NC(=O)c2ccc(C)c3OC4=C(C)C(=O)C(=C(C(=O)N[C@H]5[C@@H](C)OC(=O)[C@H](C(C)C)N(C)C(=O)CN(C)C(=O)[C@@H]6CCCN6C(=O)[C@H](NC5=O)C(C)C)C4=Nc23)N)[C@@H](C)OC(=O)[C@H](C(C)C)N(C)C(=O)CN(C)C(=O)[C@@H]7CCCN7C1=O" PRD_000001 SMILES CACTVS 3.370 "CC(C)[CH]1NC(=O)[CH](NC(=O)c2ccc(C)c3OC4=C(C)C(=O)C(=C(C(=O)N[CH]5[CH](C)OC(=O)[CH](C(C)C)N(C)C(=O)CN(C)C(=O)[CH]6CCCN6C(=O)[CH](NC5=O)C(C)C)C4=Nc23)N)[CH](C)OC(=O)[CH](C(C)C)N(C)C(=O)CN(C)C(=O)[CH]7CCCN7C1=O" PRD_000001 SMILES_CANONICAL "OpenEye OEToolkits" 1.7.6 "Cc1ccc(c2c1OC3=C(C(=O)C(=C(C3=N2)C(=O)N[C@H]4[C@H](OC(=O)[C@@H](N(C(=O)CN(C(=O)[C@@H]5CCCN5C(=O)[C@H](NC4=O)C(C)C)C)C)C(C)C)C)N)C)C(=O)N[C@H]6[C@H](OC(=O)[C@@H](N(C(=O)CN(C(=O)[C@@H]7CCCN7C(=O)[C@H](NC6=O)C(C)C)C)C)C(C)C)C" PRD_000001 SMILES "OpenEye OEToolkits" 1.7.6 "Cc1ccc(c2c1OC3=C(C(=O)C(=C(C3=N2)C(=O)NC4C(OC(=O)C(N(C(=O)CN(C(=O)C5CCCN5C(=O)C(NC4=O)C(C)C)C)C)C(C)C)C)N)C)C(=O)NC6C(OC(=O)C(N(C(=O)CN(C(=O)C7CCCN7C(=O)C(NC6=O)C(C)C)C)C)C(C)C)C" # loop_ _pdbx_chem_comp_identifier.comp_id _pdbx_chem_comp_identifier.type _pdbx_chem_comp_identifier.program _pdbx_chem_comp_identifier.program_version _pdbx_chem_comp_identifier.identifier PRD_000001 "SYSTEMATIC NAME" ACDLabs 12.01 "2-amino-4,6-dimethyl-3-oxo-N~9~-[(6R,9S,10S,13S,18aS)-2,5,9-trimethyl-1,4,7,11,14-pentaoxo-6,13-di(propan-2-yl)hexadecahydro-1H-pyrrolo[2,1-i][1,4,7,10,13]oxatetraazacyclohexadecin-10-yl]-N~1~-[(6S,9S,10R,13R,18aS)-2,5,9-trimethyl-1,4,7,11,14-pentaoxo-6,13-di(propan-2-yl)hexadecahydro-1H-pyrrolo[2,1-i][1,4,7,10,13]oxatetraazacyclohexadecin-10-yl]-3H-phenoxazine-1,9-dicarboxamide" PRD_000001 "SYSTEMATIC NAME" "OpenEye OEToolkits" 1.7.6 "2-azanyl-4,6-dimethyl-3-oxidanylidene-N1,N9-bis[(3R,6S,7R,10S,16S)-7,11,14-trimethyl-2,5,9,12,15-pentakis(oxidanylidene)-3,10-di(propan-2-yl)-8-oxa-1,4,11,14-tetrazabicyclo[14.3.0]nonadecan-6-yl]phenoxazine-1,9-dicarboxamide" |
Le format ressemble au format PDB mais est différent, déjà il n’y a pas de nom de résidu pour la molécule entière. Celle ci étant, en partie, composée d’acides aminés (et dérivés), nous trouvons dans des colonnes à droite, une reprise des données PDB pour la ‘chaine polypeptidique’ composée des résidus : THR1, DVA2, PRO3, SAR4, MVA5, PXZ6, THR7, DVA8, PRO9, SAR10, MVA11.
Pour vous y retrouver, il faut lire l’article de Wikipédia avec le schéma (à droite) qui compte :
![]() |
![]() |
L’actinocine (1) est le chromophore central (2-AMINO-1,9-DICARBONYL-4,6-DIMETHYL-10-DEHYDRO-PHENOXAZIN-3-ONE). C’est une phenoxazinone, ce qui explique le nom de résidu PXZ. Quand on dispose d’un catalogue de résidus étendus de la PDB, nous retrouvons DVA : D-VALINE, SAR: SARCOSINE, MVA: N-METHYL VALINE. A noter que dans les structures PDB, les résidus MVA et SAR sont mentionnés en tant que peptide linkers, et non comme des dérivés d’acides aminés.
Enfin, nous avons aussi la formule développée aux formats SMILES/InChI en fin de fichier CIF ce qui nous permettra de récupérer la structure chimique de l’ensemble, au lieu de la déduire de la séquence, qui n’est pas évidente.
En l’état l’utilisation de BIRD questionne, en particulier si nous la voyons d’un point de vue purement chimique et si nous avons l’intention de la fusionner avec d’autres collections de molécules. Il faudra programmer un parseur CIF adapté, soit simplifié, soit en utilisant un toolkit (OpenBabel lit le CIF, mmCIF), ce qui n’est pas impossible mais ajoute une couche de complexité.
Liens et lectures
- The Biologically Interesting Molecule Reference Dictionary (BIRD) [ https://www.wwpdb.org/data/bird/ ].
- BIRD Files [ https://files.wwpdb.org/pub/pdb/data/bird/ ].
- Dactinomycin [ https://en.wikipedia.org/wiki/Dactinomycin ].
- Structure 1A7Y [ https://www.rcsb.org/structure/1A7Y ].
- Structure 173D [ https://www.rcsb.org/structure/173D ].
- (1) Asselineau J, Zalta JP. Les Antibiotiques – Structure et exemple de mode d’action. (1973) Hermann, Paris. ISBN 2-7056-1353-6.
- Sarcosine [ https://fr.wikipedia.org/wiki/Sarcosine ].
- Open Babel – Crystallographic Information File (cif) [ https://openbabel.org/docs/FileFormats/Crystallographic_Information_File.html ].
- Cristallographic Information File (CIF) [ https://fr.wikipedia.org/wiki/Crystallographic_Information_File ].




