PDB : RCSB custom reports (2025)

Une analyse structurale repose sur la collecte de fichiers PDB correspondant à une protéine ou une isoenzyme cible, généralement identifiée dans un domaine Uniprot unique. A partir de cette collection nous allons comparer toutes les protéines pour identifier des invariants structuraux, les classifier, avec des allers-retours vers la littérature scientifique, identifier des problèmes tels que des parties non structurées, sélectionner les items ligandés, les mutants … Nous allons donc annoter cette collection en parallèle au téléchargement, au découpage en chaines (split), à la comparaison de structures …

Une analyse structurale est un processus ‘tranquille’ si nous avons une vingtaine d’entrées PDB, mais si nous avons plusieurs centaines de structures, c’est un processus qui peut devenir cognitivement lourd. Si cette analyse est manuelle, il va falloir l’aider, en constituant une collection qui va diriger l’analyse. Pour chaque structure, nous aurons un jeu réduit, mais pertinent, d’informations. Il s’agit de ne pas multiplier les colonnes, pour que la table résultante puisse s’afficher dans son intégralité à l’écran. Nous inclurons aussi des liens cliquables dans la table, de manière à ce que l’on puisse accéder directement à la structure ou à la formule chimique des ligands dans la PDB. L’objectif c’est de faciliter la manipulation de cette collection, cet article montre une recette possible, avec peu de logiciels, peu de manipulations et un peu de code.

Méthode applicable aux résultats (custom reports) fournis par le site RCSB Protein Data Bank sur [ https://www.rcsb.org/ ], les autres sites de la PDB peuvent nécessiter une autre approche.

Mise à jour en Février 2026.

1. Cas d’un domaine tyrosine-kinase

Nous allons utiliser comme exemple un domaine Uniprot P00533 · EGFR_HUMAN qui concerne le récepteur de l’EGF (EGFR, Epidermal Growth Factor Receptor) notamment impliqué dans plusieurs formes de cancer. Il s’agit d’une protéine transmembranaire, avec une partie externe et une partie interne. Cette famille protéique (ErbB) comprend plusieurs items, dont ErbB-1 ou HER1 (EGFR Human) qui nous intéresse.

Une partie de la zone cytoplasmique correspond à un domaine Tyrosine Kinase (Tk) qui permet la phosphorylation d’une tyrosine via une molécule d’ATP (production d’un résidu L-tyrosine-phosphate). La protéine peut s’associer dans la membrane en dimères ou hétérodimères (avec d’autres types de la famille), stimulant l’activité Tk, la partie C-Terminale (cytoplasmique) inclue 5 résidus TYR qui sont soumis à une auto-phosphorylation. Des protéines (par exemple GRB2) adaptatrices ayant une affinité avec des phospho-tyrosines (via via un domaine SH2) peuvent se lier et être à la base d’une cascade de signalisation.

Ce domaine Tk est soumis à plusieurs mutations, par exemple THR790MET (exon 20) qui impacte la poche catalytique et confère une résistance aux inhibiteurs de tyrosine kinases. Il s’agit souvent de molécules repérables car le nom se termine par ‘nib’ comme l’erlotinib. Ces molécules présentent une conformation dans le site actif globalement plane, en s’insérant un peu comme une pièce de monnaie dans la fente d’un distributeur. Des interactions majoritairement stériques, avec une partie centrale plutôt rigide, capable de réaliser des interactions hydrogène vers le fond du site, puis des extensions de chaque coté qui optimisent l’affinité. Il s’agit d’un schéma typique, mais concevoir des inhibiteurs dans cette famille n’est pas si simple, notamment en terme de spécificité, puisqu’il existerait au moins 90 protéines correspondant à une activité Tk dans le génome humain.

L’intérêt d’une analyse structurale

La finalité est de produire des inhibiteurs de cette enzyme, tout en s’insérant dans un cadre extrêmement complexe (dont la description sort de l’objectif de l’article). Par exemple, l’impact de la dynamique structurale (globale) du récepteur et de sa dimérisation, sur la conformation (locale) du site enzymatique. Ne s’intéresser qu’au domaine Tk est une réduction d’échelle.  Est ce qu’elle est pertinente ? Dans ce cas de figure il faut analyser l’ensemble des structures. Et si nous constatons que le fond du site de liaison est très conservé, nous avons des arguments pour aller vers une réponse affirmative. La comparaison exhaustive des structures nous donnera aussi des informations sur les états conformationnels. Par exemple un site ouvert ou fermé, actif ou inactif, des conformations intermédiaires. Si nous trouvons des structures ligandées (de préférence) et similaires pour chaque d’état, nous aurons une classification stable.

Nous pourrons dans chaque classe analyser les perturbations, peut être les relier avec les ligands et obtenir d’autres informations. Nous pourrons également avoir des informations sur l’impact des mutations, en termes structuraux et d’interaction protéine-ligand.

L’avantage d’un système à plus de 300 entrées PDB est de permettre cet échantillonnage. Une protéine moins étudiée, sera plus facile puisqu’il y aura moins de structures, mais elle nous rendra dépendants d’hypothèses dans plusieurs domaines. L’utilisation d’outils d’IA (type AlphaFold) ne permettra pas forcement de les lever, car ils dépendent de la disponibilité de structures voisines et complètes. Il s’agit dans tous les cas de connaissances à acquérir avant toute approche calculatoire. Nous saurons quelles structures utiliser pour chaque classe et pourquoi nous les utilisons, avec une capacité à défendre ce choix par des arguments objectifs. C’est également une prise de connaissance d’une protéine. Une fois celle ci acquise, il sera possible d’avoir une représentation mentale de l’objet moléculaire, celle ci pouvant s’étendre aux ligands, avec beaucoup d’avantages à la clé. Cette classification structurale est donc un objectif majeur de toute étude.

Retour en haut