2. Production d’un custom report

Une fois que le contexte est posé, nous allons nous intéresser à P00533 qui allume 365 structures en 2025. Ces entrées PDB vont de 2002 à la date de test et elles concernent essentiellement le domaine Tk. Compte tenu du nombre de structures, il n’est pas possible de tout faire à la main, ce n’est pas qu’une question de temps et d’efforts, il y aura forcément un taux d’erreurs dans la constitution de la collection.

L’interface de la RCSB permet de produire un rapport (custom report) qui correspond à une table de toutes les structures PDB qui ont été trouvées. Mais il faut d’abord sélectionner les colonnes des la table grâce à une autre interface :

Dans le cadre d’une étude structurale, nous allons sélectionner différents champs dans les catégories StructureData, Polymer EntityData, Assembly Data, Non-polymer EntityData, Oligosaccharide Data du haut vers le bas dans les listes :

Structure Data

Inutile d’activer PDB ID, redondant avec Entity ID de Polymer Entity Data.
Structure Author – La liste des auteurs, avec le format ‘Nom, Initiale.Initiale., ‘.
Structure Title – Le titre de la structure PDB, pas celui de la publications.
Release Date – La date de publication de la structure dans la PDB.
Refinement Resolution – Résolution de la structure en Å.
(Entry Polymer Types) – Optionnel mais utile pour identifier rapidement les types de polymères impliqués, par exemple Protein(only), Protein/Oligosaccharide ce qui permet de filtrer certaines structures (ex: anticorps).
Experimental Method – La méthode utilisée: RX, RMN, CryoEM …
DOI – Il y a 2 DOIs possibles, celui qui renvoie vers la structure dans la PDB et celui qui renvoie vers la littérature scientifique, nous prenons le DOI correspondant à la publication scientifique.

Polymer Entity Data

Entity ID – L’identifiant (chiffres 1, 2, …) de chaque chaine principale, utile si nous avons des chaines supplémentaires dans la structure, par exemple des polypeptides associées, mais qui ne font pas partie de la protéine.
Entry ID – Le code PDB, par exemple 9GHO.
Asym ID – Les identifiants (lettres A, B, C …) de chaque chaine chaine protéique (au sens label_asym_id généralement identique à auth_asym_id).
(Auth Asym ID) – Dans certains cas, le marquage (lettres) des chaines est différent dans le tableau et dans la structure car il y a eu renommage (label_asym_id) des chaines (lettres différentes, nombre de chaines différentes) par rapport à ce que les auteurs avaient soumis (auth_asym_id). Cela peut nous être très utile pour comprendre la structure à partir du tableau. Voir le document [ https://www.rcsb.org/docs/general-help/identifiers-in-pdb ] pour plus d’informations. Attention : l’activation de cette fonction peut générer un rapport différent avec perte des informations Asym ID.

Assembly Data

Non-polymer Entity Data

Ligand ID – Le code (3 lettres ou 6 lettres) correspondant à chaque ligand (une ligne par ligand) que cela soit des euligands (signifiants) ou des artefacts liés au dispositif (ex: tampon de cristallisation). Par exemple le code AQ4 pour l’erlotinib.
Ligand Name – Le nom du ligand, au sans chimique (nomenclature IUPAC).
Ligand SMILES – La formule traduite dans une déclinaison du format SMILES.
(Ligand of Interest) – Informe si c’est un artefact de cristallisation (par exemple une molécule ou un ion du tampon) ou un euligand : une molécule (par exemple un inhibiteur) concernée par l’étude. En potion, car cette donnée est souvent non renseignée, ou mal renseignée du point de vue du modélisateur, par exemple des cofacteurs sont marqués ‘Y’ dans la colonne, alors qu’il faudrait indiquer plutôt les inhibiteurs.

Ce qui nous donne un type de rapport dans l’interface, l’objectif est d’avoir une sélection minimale pour conduire une étude structurale mais dont le nombre de colonnes soit supportable à l’œil et à la manipulation.

Vous pouvez sélectionner plus de colonnes, puis voir si le contenu informationnel est intéressant et non redondant, et si ce n’est pas le cas, les supprimer avant de passer à la phase suivante. A partir ce ce moment nous pouvons sauver le rapport au format CSV ou Json. Pour exploiter ce dernier, il nous faut du code dédié, pour exploiter le rapport (qui est une table) nous utiliserons un export CSV.

Liens et lectures

Nomenclature de l’UICPA [ https://fr.wikipedia.org/wiki/Nomenclature_de_l%27UICPA ].
IUPAC nomenclature of chemistry [ https://en.wikipedia.org/wiki/IUPAC_nomenclature_of_chemistry ].
JavaScript Object Notation [ https://fr.wikipedia.org/wiki/JavaScript_Object_Notation ].

Pages : 1 2 3 4 5 6