197 57 22MB
French Pages 180 Year 2021
Introduction à la biocristallographie
Marie-Hélène Le Du, Pierre Legrand, Serena Sirigu et Sylvain Ravy
Illustration de couverture : Logo du MOOC « Voyage au cœur du vivant avec des rayons X », diffusé sur France Université Numérique.
Imprimé en France
ISBN (papier) : 978-2-7598-2454-0 – ISBN (ebook) : 978-2-7598-2550-9 Tous droits de traduction, d’adaptation et de reproduction par tous procédés, réservés pour tous pays. La loi du 11 mars 1957 n’autorisant, aux termes des alinéas 2 et 3 de l’article 41, d’une part, que les « copies ou reproductions strictement réservées à l’usage privé du copiste et non destinées à une utilisation collective », et d’autre part, que les analyses et les courtes citations dans un but d’exemple et d’illustration, « toute représentation intégrale, ou partielle, faite sans le consentement de l’auteur ou de ses ayants droit ou ayants cause est illicite » (alinéa 1er de l’article 40). Cette représentation ou reproduction, par quelque procédé que ce soit, constituerait donc une contrefaçon sanctionnée par les articles 425 et suivants du code pénal. © EDP Sciences, 2021
Table des matières Couverture I
Table des matières 3 Table des encadrés 7 Préface 9 Préambule 13 Introduction 15 Qu’est-ce qu’une macromolécule biologique ? 15 Comment étudier la structure d’une macromolécule biologique ? 19 Vidéos associées 21 Chapitre 1 • Histoire de la cristallographie aux rayons X 23 1.1 La découverte des rayons X 23 1.2 La nature des rayons X 24 1.3 Naissance de la cristallographie 25 1.4 La découverte de la diffraction 26 1.5 Les premières structures 27 1.6 Le coup de génie de Sir William Henry Bragg 28 1.7 L’arrivée de la biologie 30 1.8 Rosalind Franklin et le secret du cliché 51 34 1.9 CCP4 : Collaborative Computational Project No 4 36 Références 40 Vidéos assosiées 42
3
Introduction à la biocristallographie
Chapitre 2 • Préparation des échantillons 43 2.1 Connaître son échantillon 43 2.1.1 Prédiction des régions structurées d’une protéine 44 2.1.2 Approche biochimique : la protéolyse ménagée 47 2.2 Clonage, production, purification des échantillons 49 2.2.1 Le clonage 49 2.2.2 La (sur)production 50 2.2.3 La purification 52 Vidéos associées 56 Chapitre 3 • Caractéristiques et propriétés des cristaux 57 3.1 L’assemblage cristallin 57 3.2 Les symétries du cristal 59 3.3 Les réseaux de Bravais 60 3.4 Le réseau réciproque 62 Vidéos associées 65 Chapitre 4 • Les rayons X et la diffraction 67 4.1 Pourquoi utiliser des rayons X : l’interaction lumière / matière 67 4.1.1 Le choix des rayons X 68 4.1.2 L’interaction des rayons X avec les molécules 69 4.1.3 L’interaction des rayons X avec un réseau cristallin 73 4.2 La diffraction : la loi de Bragg 73 4.3 La diffusion anomale 76 Vidéos associées 78 Chapitre 5 • Cristalliser une macromolécule biologique 79 5.1 Principes généraux 79 5.1.1 Propriétés d’une protéine en solution 79 5.1.2 Schéma général du comportement de la protéine en solution 81 5.1.3 Agents cristallisants 83 5.2 Approches, plateformes 83 5.2.1 Équipement nécessaire 84 5.2.2 Méthodes de cristallisation 84 5.2.3 Approches de cristallisation 86 5.2.4 Optimisation des conditions de cristallisation 87 Vidéos associées 89
4
Table des matières
Chapitre 6 • Voyage dans un synchrotron 91 6.1 Comment générer des rayons X ? 91 6.1.1 Premiers générateurs à rayons X 92 6.1.2 Le rayonnement synchrotron 93 6.2 Le dommage d’irradiation et la congélation des cristaux 95 6.2.1 Le phénomène de dommage d’irradiation 95 6.2.2 La congélation rapide des cristaux (flash freezing) 96 6.2.3 Procédé de congélation rapide des cristaux à l’azote liquide 96 6.3 Cabane expérimentale : l’environnement du cristal 98 6.3.1 Exemple de la ligne PROXIMA-1 98 6.3.2 La salle de contrôle 99 6.3.3 Les données de diffraction 100 Vidéos associées 102 Chapitre 7 • Acquisition, traitement et analyse des données de diffraction 103 7.1 La stratégie de collecte 103 7.1.1 Caractérisation du cristal 103 7.1.2 Le signal anomal 106 7.2 Le traitement des données de diffraction 107 7.3 L’analyse des données de diffraction 111 7.3.1 La loi de Friedel 111 7.3.2 Le choix du groupe de Laue 112 7.3.3 Évaluation de la qualité des données 112 Vidéos associées 115 Chapitre 8 • La transformée de Fourier 117 8.1 Introduction à la transformée de Fourier 117 8.1.1 La transformation de Fourier appliquée à la musique 118 8.1.2 La transformation de Fourier appliquée à un système cristallin 120 8.2 La transformée de Fourier et le problème de la phase 123 8.2.1 La transformée de Fourier 124 8.2.2 Le problème de la phase 126 Vidéos associées 127 Chapitre 9 • La fonction de Patterson 129 9.1 Le problème de la phase et la fonction de Patterson 129 9.1.1 Fonction de Patterson 129 9.1.2 Propriétés de la fonction de Patterson 130
5
Introduction à la biocristallographie
9.1.3 Utilisation de la fonction de Patterson 133 Vidéos associées 134 Chapitre 10 • Le calcul des phases par remplacement moléculaire 135 10.1 Le remplacement moléculaire 135 10.1.1 Fonction de Patterson et remplacement moléculaire 136 10.1.2 Évaluation du résultat de remplacement moléculaire 139 Vidéos associées 141 Chapitre 11 • Le calcul des phases par approches expérimentales 143 11.1 Le remplacement isomorphe 143 11.1.1 Les données natives et dérivées 143 11.1.2 Fonction de Patterson et sections de Harker 145 11.1.3 Représentation vectorielle des sections de Harker 146 11.2 La diffusion anomale 148 11.2.1 Le signal anomal 148 11.2.2 Violation de la loi de Friedel 150 11.2.3 Exploitation du signal anomal 151 11.3 La combinaison des phases 153 Vidéos associées 154 Chapitre 12 • Amélioration des phases et construction du modèle 155 12.1 Erreur de fermeture et figure de mérite 155 12.2 Amélioration des phases 158 12.2.1 Modifications de la densité électronique 159 12.2.2 Boucle itérative d’amélioration des phases 160 12.3 Construction du modèle moléculaire 161 Vidéos associées 164 Chapitre 13 • Affinement et validation du modèle 165 13.1 Affinement 165 13.1.1 Le processus itératif d’affinement 167 13.1.2 Les cartes 2Fo-Fc, et Fo-Fc 169 13.1.3 Limites de l’affinement 170 13.2 Validation de la structure tridimensionnelle 172 Vidéos associées 175 Pour aller plus loin 177
6
Table des encadrés Les différentes catégories de macromolécules 16 La cristallographie aux rayons X et sa ribambelle de Prix Nobel 32 Les 20 acides aminés naturels 46 Les protéases et la protéolyse ménagée 48 Production de protéines marquées aux séléno-méthionines (SeMet) 52 Les opérations vectorielles 64 Processus d’interaction lumière / atomes 70 Facteur de diffusion atomique 72 Cristallisation des protéines membranaires 82 Production d’électrons à haute énergie 94 Petit historique des détecteurs bidimensionnels 108
7
Préface Voyage au cœur du vivant avec des rayons X : la cristallographie
“A great advantage of X-ray analysis as a method of chemical structure analysis is its power to show some totally unexpected and surprising structure with, at the same time, complete certainty.” Dorothy Hodgkin Dans une ère post-génomique où l’acquisition de données scientifiques ne cesse de s’accélérer, un défi majeur est de repérer et valider les interactions clés pour un processus cellulaire particulier. Les interactions entre les composants de la cellule sont au cœur des fonctions du Vivant et elles ne peuvent être prédites. Les disciplines engagées dans l’étude fonctionnelle et structurale de ces composants sont essentielles et doivent guider les expériences des biologistes cellulaires et des microbiologistes. Grâce aux connaissances de la biologie moléculaire et à la visualisation de ces interactions, des expériences de biologie cellulaire peuvent être conçues de façon plus précises pour étudier l’impact de mutations ou d’interactions pour le processus cellulaire étudié. Les mécanismes clés qui régissent le Vivant peuvent ainsi peu à peu être déchiffrés. Comprendre le Vivant doit donc s’appréhender en plongeant dans le monde des macromolécules, principaux composants des organismes vivants. Les décisions au sein d’une cellule sont régies par les multiples interactions et mécanismes chimiques dont sont capables ces composants. Pour rendre compte des fonctions
9
Introduction à la biocristallographie
de ces macromolécules et des complexes qu’ils peuvent former, il est essentiel d’étudier leur structure tri-dimensionnelle, c’est-à-dire la position précise adoptée par les atomes de ces composants cellulaires dans l’espace. En effet, cette connaissance donne accès à la visualisation tridimensionnelle des interactions entre composants cellulaires, et elle est essentielle pour accéder aux propriétés dynamiques de ces composants. Au cours d’une reconnaissance ou d’un mécanisme chimique, cette structure tri-dimensionnelle peut se modifier : un changement conformationnel a alors lieu. Les changements conformationnels sont inhérents à la reconnaissance de composants cellulaires et de co-facteurs requis pour la fonction cellulaire, et permettent à un composant d’adopter des formes actives ou inactives. De même, l’interaction avec de petits composés chimiques, candidatmédicaments, peut modifier la structure du composant cellulaire ou influer sur les changements conformationnels qu’il doit effectuer pour accomplir sa fonction cellulaire. Obtenir une structure tri-dimentionnelle comprenant le candidat médicament peut permettre d’optimiser l’accès vers de nouvelles molécules plus performantes et mieux comprendre le mécanisme d’action d’un médicament. Les approches de biologie structurale sont incontournables pour visualiser ces diverses conformations et pour rendre compte des interactions entre composants qui peuvent en émaner. Elles sont donc essentielles pour comprendre le Vivant au niveau le plus intime de la matière et diriger les recherches de nouvelles thérapies pharmacologiques. Avec 23 prix Nobel décernés dans le domaine, la cristallographie est devenue au cours du XXe siècle un instrument puissant pour étudier la structure de la matière. De nombreux défis ont été relevés alors que les puissances de calculs étaient dérisoires au XXe siècle comparées à celles dont nous bénéficions aujourd’hui. Le développement de cette discipline au profit de la science du vivant est un exemple édifiant de coopération en particulier à travers le projet de calcul collaboratif CCP4 qui a permis de mobiliser les utilisateurs et les développeurs pour qu’ils travaillent ensemble sur les méthodes permettant de décrire une structure tridimensionnelle. Le chapitre 1 de ce livre relate l’histoire de cette discipline. Il s’en dégage un sentiment d’humilité devant l’ingéniosité des pionniers et de reconnaissance vis-à-vis des scientifiques qui ont permis les bonds en avant méthodologiques ou technologiques. En particulier, la communauté des cristallographes doit beaucoup aux scientifiques qui ont contribué au développement des lignes de lumière des grands instruments. Aujourd’hui, la cristallographie est ainsi une méthode robuste, efficace et accessible pour visualiser les constituants du vivant à haute résolution. Les chapitres suivants présentent les différentes étapes et méthodes requises pour résoudre une structure par cristallographie. Ils sont écrits d’une manière synthétique et didactique tout en étant complète et pragmatique. L’exposé clair des principes théoriques est associé aux considérations pratiques pour mener les expériences à chaque étape de la détermination d’une structure d’une macromolécule. Le contenu est adapté pour démystifier la cristallographie biologique et la rendre accessible à tout scientifique. Les auteurs de ce livre apportent ainsi un document précieux pour les chercheurs néophytes en biologie structurale en leur permettant d’appréhender de façon concise les principes qui permettent de résoudre une structure. Les
10
Préface
paramètres importants pour évaluer la qualité des données structurales disponibles à la Protein Data Bank (PDB) sont aussi définis, notamment dans le chapitre 13. Une connaissance approfondie de la structure atomique des constituants du vivant est incontournable pour appréhender les mécanismes du Vivant. La richesse des informations d’une structure éclaire les résultats obtenus par les autres disciplines de la biologie. En émettant des hypothèses vérifiables, une structure est un guide précieux pour concevoir les expériences fonctionnelles de biologie cellulaire ou de reconstitution in vitro visant à décrire les processus régulant la vie d’une cellule et leur dysfonctionnement en cas de maladie ou d’invasion par un microorganisme ou un parasite. En apportant de façon synthétique une information critique pour accéder aux principes de base de la détermination d’une structure et en incitant ainsi les biologistes à prendre en compte la richesse des informations contenues dans une structure tridimensionnelle, ce livre aidera à rapprocher les approches de biologie moléculaire et de biologie cellulaire qui doivent coopérer pour étudier le Vivant. Alors que les révolutions technologiques permettent aujourd’hui aux jeunes chercheurs d’acquérir des données plus rapidement et de poser des questions de plus en plus précises, il est plus que jamais indispensable pour la biologie cellulaire de s’enrichir des connaissances structure/fonction des composants cellulaires pour décrire les mécanismes qui régissent les processus cellulaires. Les études innovantes questionnant comment l’environnement d’une cellule ou les interactions entre cellules influencent les processus cellulaires décriront globalement comment une cellule est sensible à son environnement. Mais le défi est aussi de déchiffrer les mécanismes de lecture de la cellule qui intègrent ces informations. Visualiser les molécules du vivant, c’est une porte d’entrée riche d’informations qui sont recueillies à la PDB. Les biologistes doivent travailler ensemble pour exploiter ces informations et émettre des hypothèses qui guideront aussi bien les expériences de biologie cellulaire que de biochimie et de biologie structurale. Ainsi pourront-ils rendre compte des changements conformationnels des macromolécules qui sous-tendent les processus du Vivant, qu’ils soient physiologiques ou pathologiques. “The important thing in science is not so much to obtain new facts as to discover new ways of thinking about them.” William Lawrence Bragg
Dr Anne Houdusse, Directrice de recherche au CNRS, Membre de l’Académie des Sciences.
11
Préambule
L’exploitation des structures tridimensionnelles de macromolécules biologiques fait partie du quotidien d’un grand nombre de scientifiques biologistes. Ces structures permettent de comprendre le fonctionnement des molécules, de concevoir des mutants pour étudier leur fonction, ou encore de mettre au point des médicaments de façon à moduler leur activité. Cependant, le degré de fiabilité d’une structure tridimensionnelle n’est pas toujours le même, et les paramètres qui permettent d’évaluer cette fiabilité sont multiples. De façon à utiliser au mieux le modèle d’une macromolécule il est essentiel de conserver un regard critique, qui passe par la connaissance des forces et des limites de la méthode qui a permis de le construire. Pour fournir aux biologistes les bases nécessaires à cet œil critique, avec l’aide de nombreux collègues, nous avons construit le MOOC1 « Voyage au cœur du vivant avec des rayons X : la cristallographie ». Plusieurs sessions de diffusion se sont tenues sur la plateforme FUN-MOOC (https://www.fun-mooc.fr/), ainsi que quelques sessions en mode privatif (SPOC : Small Private Online Course) pour accompagner des ateliers de formation à la cristallographie biologique. Un MOOC est conçu pour être suivi entièrement en ligne à un moment précis dans le temps. Cet aspect temporel permet aux participants et aux encadrants d’échanger plus ou moins en direct sur un forum dédié. La contrepartie est qu’en dehors des sessions du MOOC, le contenu des cours n’est pas accessible, ce qui peut également être limitant. 1. MOOC : Massive Open Online Course. Il ne s’agit pas simplement de mettre des ressources pédagogiques en ligne et de les rendre accessible, mais d’un cours conçu pour être suivi entièrement en ligne à un moment précis, ce qui permet l’existence de forum internet de discussion, sur lesquels les participants et les encadrants pourront interagir, ainsi que la constitution de groupes de réseau internet qui dynamisent la communauté impliquée dans le MOOC.
13
Introduction à la biocristallographie
Pour compléter le MOOC, nous avons décidé d’écrire ce livre dérivé de son contenu, révisé et enrichi de façon à pouvoir être utilisé indépendamment. Tout comme le MOOC, ce livre est une introduction à la cristallographie biologique, il s’adresse d’abord aux biologistes, mais aussi à toute personne intéressée par la biologie structurale. Nous avons choisi de commencer par vous raconter l’histoire de cette méthode centenaire et multidisciplinaire. Par ailleurs, de façon à satisfaire des niveaux de lecture variés, au fil des chapitres, nous avons inséré des « encadrés » qui reprennent certaines bases ou approfondissent des points particuliers. À la fin de chaque chapitre, nous avons regroupé les liens et codes QR qui permettent d’accéder aux vidéos du MOOC correspondant au chapitre. Enfin, nous avons regroupé les références dans l’annexe intitulée « Pour aller plus loin ». La diversité de nos origines scientifiques transparaît dans cette écriture à 8 mains, dans laquelle nous avons essayé de conserver un style accessible au plus grand nombre. Nous avons bénéficié de l’aide de nombreux collègues dans ce travail. En particulier, nous tenons à remercier Pascal Arnoux, Patrice Gouet, Claudine Mayer et Mirjam Czijeck pour leur relecture du manuscrit et leurs commentaires constructifs. Tout en étant experte, Gerlind Sulzenbacher a réussi à endosser les vêtements d’un néophyte pour relever tout ce qui pouvait rester difficile d’accès, nous pensons qu’elle aura aidé beaucoup de lecteurs grâce à cela. Enfin, nous remercions vivement le Dr Anne Houdusse, de l’Académie des Sciences, qui nous a fait l’honneur d’accepter de préfacer le livre. Enfin, ce travail n’aurait pas pu être réalisé sans le soutien du Commissariat à l’Énergie Atomique et aux Énergies Alternatives (CEA), de l’Université Paris-Saclay, du synchrotron SOLEIL et du Centre National de la Recherche Scientifique (CNRS). Marie-Hélène le Du est biophysicienne au CEA à l’Institut de Biologie Intégrative de la Cellule (I2BC/CNRS) de l’Université Paris-Saclay. Pierre Legrand est scientifique de ligne sur la ligne Proxima-1 et membre de Héliobio au Synchrotron SOLEIL. Serena Sirigu est scientifique de ligne sur la ligne Proxima-2A et membre de Héliobio au Synchrotron SOLEIL. Sylvain Ravy est directeur de recherche au CNRS, au Laboratoire de Physique des Solides (LPS/CNRS) de l’Université Paris-Saclay.
14
Introduction
Qu’est-ce qu’une macromolécule biologique ? La matière vivante est constituée de molécules organiques, dont certaines peuvent s’assembler entre elles pour former des molécules de plusieurs dizaines de milliers d’atomes, qu’on appelle des macromolécules (voir l’encadré sur les différentes catégories de macromolécules). Selon leur localisation et leur structure, ces macromolécules vont endosser des fonctions différentes et essentielles. Pour comprendre la fonction d’une macromolécule, il peut s’avérer crucial de connaître sa structure tridimensionnelle, c’est-à-dire l’organisation dans l’espace des atomes qui la composent. Ces informations permettent de comprendre les mécanismes associés aux fonctions des organismes vivants. Au-delà de la compréhension, elles peuvent servir de base pour concevoir des molécules qui vont bloquer, activer ou encore mimer ces fonctions. La structure d’une macromolécule consiste en des blocs moléculaires distincts dont l’assemblage décrit cinq niveaux : la séquence, les structures secondaires, l’agencement spatial, les assemblages moléculaires et la dynamique. Ainsi, dans le cas des protéines : – La séquence, 1D, correspond à l’ordre des acides aminés qui constituent la chaîne polypeptidique avec un squelette, l’enchaînement peptidique, et des chaînes latérales qui dépendent des acides aminés. – Les structures secondaires, 2D, sont dues aux interactions du squelette. Elles incluent par exemple des brins bêta ou des hélices alpha.
15
Introduction à la biocristallographie
Les différentes catégories de macromolécules En biochimie, on définit trois grandes catégories de macromolécules, qui sont des biopolymères formés par l’enchaînement covalent de quelques centaines à plusieurs milliers de blocs moléculaires : – Les polysaccharides, ou sucres complexes, sont constitués de monosaccharides. Chaque monosaccharide peut contenir 5 ou 6 carbones, comme le glucose (6 carbones), le fructose ou le ribose (5 carbones), naturellement replié en cycle. Ils ont un rôle de stockage d’énergie (l’amidon des féculents) ou de structuration cellulaire (la cellulose du bois). – Les acides nucléiques sont constitués de nucléotides. Chaque nucléotide contient une base azotée (purique ou pyrimidique), un sucre (ribose ou désoxyribose) et un groupement phosphorique. La nature du sucre définit la catégorie de l’acide nucléique : acide ribonucléique (ARN) quand il s’agit d’un ribose, acide désoxyribonucléique (ADN) quand il s’agit d’un désoxyribose. Ils ont un rôle de stockage et transmission de l’information génétique, de régulation de l’expression génétique, et parfois de catalyse. – Les protéines sont constituées de l’enchaînement peptidique des acides aminés (voir encadré, chapitre 2). Elles ont des fonctions de catalyse, de transport, de transmission de signaux… Un aspect crucial des fonctions associées aux macromolécules passe par les nombreuses interactions stables ou transitoires qu’elles forment avec d’autres macromolécules, des ligands ou cofacteurs organiques, ou des ions. Une unité moléculaire fonctionnelle peut également être constituée de l’assemblage stable de macromolécules de catégories différentes : c’est le cas du ribosome (protéines + ARN), ou des nucléosomes (ADN + protéines). Certaines macromolécules sont ellesmêmes constituées d’un mélange de blocs de catégories différentes, comme le peptidoglycane (sucres + acides aminés) de la paroi de certaines bactéries. Enfin, les modifications post-traductionnelles comme les glycosylations des protéines ou les méthylations de l’ADN correspondent à l’ajout de blocs d’une autre catégorie à une macromolécule. Dans la Protein Data Bank (PDB, la banque de stockage internationale des structures de macromolécules biologiques), plus de 90 % des structures déposées correspondent à des protéines seules, environ 5 % à des complexes protéine / acide nucléique, et 2 % à des acides nucléiques seuls (https://www.rcsb.org/stats/ summary). Du fait de leur grande flexibilité, les polysaccharides sont presque absents de la PDB, sauf sous forme de glycosylation en conformation stable ou de fragment en complexe avec une protéine. Les acides nucléiques sont également très flexibles, mais peuvent adopter des conformations stables, comme dans le cas des ARN de transfert ou des quadruplex d’ADN. Par ailleurs, si la majorité des protéines adoptent un repliement structuré, de nombreuses protéines (entre 15 et 50 % selon les organismes), ou régions de protéines ne sont pas structurées, elles sont intrinsèquement désordonnées. Cela leur confère une plasticité à l’origine de leur importance dans certains phénomènes biologiques.
16
Introduction
– La structure tertiaire, 3D, est due à la fois aux interactions du squelette et des chaînes latérales. Elle correspond à l’arrangement de la séquence et des structures secondaires dans l’espace tridimensionnel. – L’assemblage moléculaire, 4D, vient des interactions entre chaînes polypeptidiques et/ou d’autres macromolécules. Il implique plusieurs chaînes polypeptidiques ou une ou plusieurs chaînes polypeptidiques et une ou plusieurs autres macromolécules. – La dynamique, 5D, est due aux interactions avec le milieu, avec l’environnement chimique. Elle introduit la notion de mouvements structuraux dans le temps, les changements de conformation ou de forme d’une molécule ou d’un assemblage moléculaire (figure 1). Brins 𝛃𝛃 D
R
C
M
Q
C
K
1D
3D
Hélice 𝛂𝛂
2D
4D
5D 5D
Figure 1 Représentation des différents niveaux d’organisation structurale d’une macromolécule biologique.
En biologie structurale, nous nous intéressons avant tout aux structures tridimensionnelles et quaternaires des macromolécules, et quand c’est possible à leur dynamique. Mais toutes les macromolécules ne sont pas nécessairement structurées (voir l’encadré sur les différentes catégories de macromolécules). Continuons avec l’exemple d’une protéine. Nous pouvons la visualiser sous la forme d’un ruban, pour mettre en valeur les structures secondaires. Il est également possible de visualiser seulement la surface de la molécule, de façon à mettre en valeur son encombrement et éventuellement les potentiels électrostatiques créés par la répartition des charges positives et négatives à la surface de la protéine. Il peut être intéressant de représenter tous les atomes, sous forme de bâtonnets, ou sous forme de sphères dont la taille sera ajustée au nombre d’électrons de l’atome (figure 2). Chacune de ces représentations est issue du même modèle tridimensionnel, mais permet de souligner des propriétés différentes de la molécule.
17
Introduction à la biocristallographie
Ruban
Surface
Batonnets
Sphères
Figure 2 Différents modes de représentation d’une macromolécule biologique. Les flèches sur la représentation en ruban représentent le sens des brins bêtas. Les couleurs bleue et rouge sur la représentation en surface sont associées respectivement à un potentiel électrostatique positif et négatif. Sur les représentations en bâtonnets ou en sphères, les atomes de carbone sont en jaune, les oxygènes en rouge, les azotes en bleu. Notons que les atomes d’hydrogène ne sont pas représentés, car ils sont presque toujours invisibles dans les structures résolues par cristallographie aux rayons X.
Quelle que soit la représentation choisie, les logiciels adaptés lisent des fichiers de coordonnées, dans lesquels se trouve la position xyz de chaque atome de la molécule. Ces fichiers répondent à un standard international, dont le plus utilisé est celui d’une banque de données appelée la Protein Data Bank. Les fichiers de coordonnées sont disponibles sur deux sites principaux : – RCSB (Research Collaboratory for Structural Bioinformatics) : http://www. rcsb.org/pdb/home/home.do ; – PDBe (Protein Data Bank in Europe) : http://www.ebi.ac.uk/pdbe/.
18
Introduction
Comment étudier la structure d’une macromolécule biologique ? Quelles données expérimentales, quelles méthodes, vont nous permettre de construire des modèles tridimensionnels pour étudier les macromolécules biologiques ? L’échelle de grandeur associée à l’étude d’une macromolécule est l’ångström (Å), ce qui correspond à 0,1 nanomètre, soit 10-10 mètre. Trois méthodes expérimentales permettent d’accéder aux informations tridimensionnelles des macromolécules à l’échelle atomique : la cryo-microscopie électronique, la cristallographie aux rayons X, et la Résonance Magnétique Nucléaire (RMN) (figure 3). La cryomicroscopie électronique nécessite peu de matériel pour effectuer les expériences : entre quelques centaines de microgrammes et quelques milligrammes, ce qui peut constituer un grand avantage quand la macromolécule étudiée est difficile à produire (voir chapitre 2). Un deuxième avantage est qu’il n’y a pas de limite supérieure de taille de l’échantillon. Il est possible d’étudier de gros assemblages moléculaires. Par contre, les électrons endommagent très rapidement l’échantillon, raison pour laquelle celui-ci est congelé (figure 3a). La cristallographie aux rayons X apporte une précision encore inégalée dans la détermination de la position des atomes, et une grande robustesse et fiabilité du résultat. La limite de taille des objets décrits par cette méthode est élevée, on a résolu des structures de virus entiers ou encore la machinerie de synthèse des protéines, le ribosome, constitué de plus de 100 000 atomes. En
Figure 3 Principes généraux, avantages et inconvénients des trois méthodes expérimentales permettant d’accéder à la structure tridimensionnelle d’une macromolécule biologique. (a) : microscopie électronique ; (b) : cristallographie ; (c) : RMN.
19
Introduction à la biocristallographie
fait, cette limite est liée aux conditions d’enregistrement des données de diffraction (voir chapitre 6). Par contre, cette méthode nécessite une grande quantité de protéine pure à 95 % : entre un milligramme et quelques dizaines de milligrammes. La plus grande limitation est l’obtention de cristaux, qui est souvent la raison qui fait renoncer à la cristallographie (figure 3b). Enfin, la RMN a l’avantage de permettre d’accéder à la structure de la molécule en solution, et peut fournir des informations sur la dynamique de la macromolécule. Par contre, elle est moins précise sur la position des atomes que la cristallographie, et la taille des objets étudiés dépasse rarement 30 kiloDaltons1 (figure 3c). La cristallographie reste la plus utilisée, même si les gros assemblages sont actuellement étudiés principalement par cryo-microscopie électronique. La puissance de la RMN réside en grande partie dans les informations dynamiques qu’elle apporte : études des interactions, évolution de conformations en milieu cellulaire (figure 4).
100000
10000
Nombre de structures débloquées par an dans la PDB Cryo-EM RMN RX
1000
100
10
1
1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 2016 2018 2020
Figure 4 Nombre de structures résolues par cristallographie aux rayons X (RX), par Résonance magnétique Nucléaire (RMN) ou par microscopie électronique ou cristallographie électronique ou tomographie électronique (EM).
1. Un dalton est défini comme égal à 1⁄12 de la masse d’un atome de carbone 12. C’est donc, avec une assez bonne précision, la masse d’un atome d’hydrogène.
20
Introduction
Vidéos associées Qu’est-ce qu’une structure tridimensionnelle ? https://youtu.be/YyqYkiPcyGI
Les méthodes de biologie structurale https://youtu.be/BTgLGw5dD5A
21
Chapitre 1 Histoire de la cristallographie aux rayons X
1.1 La découverte des rayons X En histoire des sciences, l’année 1895 est celle qui sépare le XIXe du XXe siècle. À Würzburg, petite ville de Bavière, Wilhelm Röntgen travaille sur le tube de Crookes, un des premiers tubes à décharge électrique. Il s’agit d’un tube à vide dans lequel sont insérées deux électrodes : une cathode et une anode. Lorsqu’on applique une tension élevée entre ces électrodes, des rayons colorés apparaissent qui passent de la cathode à l’anode, ce sont les rayons cathodiques. Ce type de rayon est en réalité un faisceau d’électrons, mais en 1895 cette particule n’était pas encore connue. Comme beaucoup de chercheurs de l’époque, Wilhelm Röntgen s’interroge sur la nature de ces rayons cathodiques. Il cherche à savoir si quelque chose sort du tube, comme les rayons cathodiques eux-mêmes ou autre chose. Il place un papier noir autour de son tube, de façon à masquer la lumière qui en sort. Dans cette configuration, il met son tube sous tension, et remarque alors un scintillement sur un écran fluorescent qu’il avait posé sur une table à quelques mètres de là. Il vient de découvrir ce qu’il a appelé les rayons X, X comme l’inconnue en mathématiques. Il faudra trois jours d’expériences à Röntgen pour bien caractériser ces rayons X. En
23
Introduction à la biocristallographie
particulier, il va constater qu’ils sont très pénétrants et il prendra la célèbre photographie de la main de sa femme Bertha, qui constitue la première radiographie aux rayons X (figure 1.1).
Figure 1.1 (a) : portrait de Wilhelm Conrad Röntgen (wikipédia : https://fr.wikipedia.org/ wiki/Wilhelm_Röntgen) ; (b) : tube de Crookes (wikimedia : https://upload. wikimedia.org/wikipedia/commons/9/92/Crookes_tube.jpg) ; (c) : première radiographie X de la main d’Anna Bertha Ludwig Röntgen prise le 22 décembre 1895 (https://fr.wikipedia.org/wiki/Wilhelm_Röntgen#/media/ Fichier:First_medical_X-ray_by_Wilhelm_Röntgen_of_his_wife_Anna_ Bertha_Ludwig’s_hand_-_18951222.gif).
1.2 La nature des rayons X Pendant les dix-sept années qui suivent la découverte de Wilhelm Röntgen, les savants vont s’interroger sur la nature des rayons X. À cette époque, on sait déjà : – – – –
Qu’ils sont pénétrants ; Qu’ils ne sont ni réfléchis ni réfractés comme la lumière ; Qu’on ne parvient pas à les faire diffracter par une petite ouverture ; Qu’ils ne sont déviés ni par un champ électrique ni par un champ magnétique.
Quelle est donc la nature de ces rayons ? La première hypothèse est donnée par Röntgen lui-même, en 1895, dès son premier article : il pense que ce sont des ondes longitudinales, comme les ondes sonores. Trois ans plus tard, en 1898, J.J. Thomson, célèbre pour avoir découvert l’électron, émet l’hypothèse que ce sont des impulsions électromagnétiques. Puis en 1905, Charles Barkla, physicien anglais, démontre que ce sont des ondes transverses. Mais en 1907, William Henry Bragg, que l’on retrouvera plus loin, pense que ce sont des particules neutres. Finalement, en 1912, Arnold Sommerfeld, physicien théoricien allemand, fait l’hypothèse que les rayons X sont des ondes électromagnétiques et déduit de ses expériences que celles-ci auraient des longueurs d’onde d’environ 0,4 Ångström.
24
Chapitre 1. Histoire de la cristallographie aux rayons X
1.3 Naissance de la cristallographie À la fin du XVIIIe siècle, René-Just Haüy fait l’hypothèse qu’un cristal est formé de petites briques, qu’il appelle des « molécules intégrantes », et qui s’empilent périodiquement dans les trois directions de l’espace. À l’aide de croquis, il décrit comment ces empilements pourraient expliquer la forme et les facettes régulières des cristaux (figure 1.2). Au cours du XIXe siècle, la théorie atomique s’est développée, mais la notion de cristal comme empilement régulier d’atomes reste « l’hypothèse la plus probable », selon George Wulff, un cristallographe russe. Selon cette hypothèse, les molécules intégrantes de Haüy (appelée maintenant des mailles) sont décorées par des atomes ou des groupes d’atomes. Mais à ce moment-là, il n’y a aucune information sur la manière dont ces atomes s’empilent ni sur leur distance, car aucune mesure n’est disponible.
Figure 1.2 Molécules intégrantes d’un cristal cubique d’après le Traité de Minéralogie (1801), René Just Haüy (1743–1822) (https://fr.wikipedia.org/wiki/René_ Just_Haüy#/media/Fichier:Hauy_Molécule_intégrante.jpg).
À ce point de l’histoire, il faut revenir un petit peu en arrière pour rencontrer un personnage assez surprenant, William Barlow, un cristallographe amateur qui, en raisonnant simplement sur la taille de petites billes, va prédire correctement des structures très simples comme celle du chlorure de césium, CsCl, du chlorure de sodium, NaCl, ou encore celle du diamant qu’il décrira correctement en 1897 avec William Pope, qui lui est un cristallographe professionnel. En 1912, en France, Jean Perrin fournit différentes façons d’estimer le nombre d’Avogadro, le nombre d’atomes par mole. Ainsi, grâce à l’hypothèse sur la structure des cristaux et à la détermination du volume occupé par un nombre d’atomes connu, il est possible d’estimer les distances interatomiques qui sont de l’ordre de l’Ångström.
25
Introduction à la biocristallographie
1.4 La découverte de la diffraction En janvier 1912 à Munich, dans le parc de l’Université Louis-et-Maximilien, se déroule une discussion qui a été très commentée depuis, entre Paul Ewald, un doctorant d’Arnold Sommerfeld qui travaille sur la lumière, et Max Laue (anobli en 1913, il deviendra Max von Laue), un théoricien travaillant également dans l’équipe de Sommerfeld. Ewald étudie la propagation d’une onde lumineuse dans un cristal tel qu’on l’imaginait à l’époque, c’est-à-dire un assemblage de petits atomes très proches qui diffusent les ondes lumineuses. Au cours d’une discussion avec Ewald, Max Laue apprend que les cristaux sont comme des réseaux qui auraient des périodes de quelques dixièmes de nanomètres. Comme il connaît les longueurs d’onde des rayons X, il pose cette question à Ewald : « Que se passerait-il si votre lumière avait une longueur d’onde beaucoup plus courte ? » Ewald répond qu’il ne sait pas ce qui se passerait. C’est probablement à ce moment que Max Laue a l’idée d’essayer de faire diffracter les rayons X par des cristaux. Il va cependant rencontrer un obstacle : Arnold Sommerfeld, qui est son chef, ne veut pas que Laue tente son expérience de diffraction. Il a plusieurs arguments pour cela, mais la raison principale est qu’il pense que l’agitation thermique – qui fait que les atomes bougent autour de leur position d’équilibre – annihilerait le phénomène d’interférence attendu par Laue. Il a tort, mais on ne le comprendra que plus tard. Par chance pour Max Laue, en avril 1912, Sommerfeld s’absente de son laboratoire et quand le chat n’est pas là, les souris vont faire de la diffraction et tenter l’expérience de Laue. Les souris en question, ce sont Walter Friedrich, l’assistant de Sommerfeld, qui va réaliser le montage, et Paul Knipping, doctorant de Röntgen qui connaît bien les rayons X. Ils montent une expérience avec un tube à vide, une plaque de plomb avec un petit trou qui laisse passer les rayons X, un cristal de sulfate de cuivre, et une plaque photo. Après quelques tentatives infructueuses, ils voient apparaître de grosses taches sur la plaque photo : ce sont les premières taches de diffraction. Après amélioration de leur montage, ils vont obtenir une très jolie photo ou l’on voit clairement de fines taches de diffraction, que l’on appellera ensuite réflexions de Bragg qui n’ont pas toutes la même intensité, et qui reproduisent la symétrie du cristal (figure 1.3). Max Laue pense alors que ces taches de diffraction sont dues à la fluorescence, c’est-à-dire à l’émission de rayonnement par la matière quand elle est illuminée par un rayonnement de plus haute énergie. Mais cette explication n’est pas correcte et c’est la famille Bragg qui va comprendre ce qu’il se passe vraiment. En 1908, Sir William Henry Bragg fait l’hypothèse que les rayons X pourraient être des particules. Il a tort. En 1912, son fils Lawrence reprend l’expérience de Laue, et l’explique en décrivant les rayons X comme des ondes. À ce moment-là, il est en désaccord avec son père, ce qui va lui poser des difficultés pour écrire son premier article. Lawrence Bragg imagine que les rayons X se réfléchissent comme sur un miroir sur les différents plans du réseau (ou plans réticulaires) cristallin et
26
Chapitre 1. Histoire de la cristallographie aux rayons X
Figure 1.3 Diagramme de Laue. Cliché de diffraction d’un cristal de blende, ZnS, illuminé par un faisceau de rayons X parallèle à un axe de rotation d’ordre 4 présent dans le cristal (d’après Friedrich et al. Annalen der Physik 346, 971–988 (1913)).
interfèrent entre eux. En novembre 1912, c’est-à-dire six mois après l’article de Laue, il écrit la formule célèbre, que l’on appelle maintenant la « loi de Bragg » : 2d sin θ = l, où θ est l’angle entre le faisceau incident et le plan réticulaire, d est la distance entre deux plans et l est la longueur d’onde du faisceau de rayons X. Cette formule donne une condition pour que les rayons diffractés interfèrent de manière constructive, ce qui se traduit par l’apparition de taches de diffraction (voir chapitre 3) sur le film, appelées « taches » ou « réflexions de Bragg ».
1.5 Les premières structures Lawrence Bragg comprend (c’est là son génie) que la diffraction permet de déterminer les structures cristallines en analysant les positions et les intensités des taches de diffraction. Son approche pragmatique était assez différente de celle de l’école allemande qui cherchait plutôt à comprendre le mécanisme d’interaction entre les rayons X et la matière. Les Bragg vont utiliser les structures prédites par William Barlow, et avec des méthodes essai-erreur, c’est-à-dire en essayant certaines positions atomiques et en les modifiant si les intensités attendues ne sont pas observées, ils vont reproduire les diagrammes de diffraction. Par cette approche, ils déterminent la structure du chlorure de sodium NaCl, du sulfure de zinc ZnS et du diamant, en 1913, puis de structures de plus en plus compliquées, comme celle de la fluorine CaF2, en 1914. D’autres chercheurs vont se mettre à cette méthode, comme le
27
Introduction à la biocristallographie
Norvégien Vegard, qui en 1916, pendant la Première Guerre mondiale, va déterminer la structure de l’oxyde de titane (figure 1.4).
1913 : NaCl
1914 : CaF2
1913 : ZnS
1916 : TiO2
Figure 1.4 Premières structures cristallines déterminées par diffraction des rayons X (NaCl : https://commons.wikimedia.org/wiki/File:NaCl.png ; ZnS : https:// fr.m.wikipedia.org/wiki/Fichier:Boron-arsenide-unit-cell-1963-CM-3D-balls. png ; CaF2 : https://fr.m.wikipedia.org/wiki/Fichier:CaF2_polyhedra.png ; TiO2 : https://commons.wikimedia.org/wiki/File:Titaniumdioxide_unit_cell_rutile.svg).
Ces structures paraissent maintenant extrêmement simples, voire un peu dépassées, mais pour l’époque elles étaient révolutionnaires et bousculaient certaines idées reçues. Ainsi en 1927, un chimiste écrivait encore : « Certains livres sont des mensonges d’un bout à l’autre. Le Professeur Bragg affirme que dans le chlorure de sodium il n’y a pas de molécule NaCl, cette affirmation répugne totalement au sens commun, elle est absurde jusqu’au dernier degré ». Certains chercheurs étaient en effet toujours convaincus que, dans le chlorure de sodium, il y avait un empilement de molécules NaCl, alors que la structure des Bragg montre que les atomes de sodium et les atomes de chlore s’empilent régulièrement et qu’il n’y a donc pas de molécules NaCl dans le solide. En 1920, la méthode des Bragg a permis de déterminer 50 structures, et 600 en 1925, dont 150 de molécules organiques.
1.6 Le coup de génie de Sir William Henry Bragg L’approche essai-erreur utilisée pour les premières structures moléculaires ne pouvant pas être utilisée pour des structures plus complexes, il faut trouver un autre moyen de résoudre ces structures. Depuis 1912 et les découvertes de son fils Lawrence, Sir William Henry Bragg a admis son erreur et considère alors comme son fils que
28
Chapitre 1. Histoire de la cristallographie aux rayons X
les rayons X sont des ondes électromagnétiques de courtes longueurs d’onde. En 1915, il écrit un article célèbre dans lequel il fait le lien entre les mathématiques du français Joseph Fourier et la diffraction. Il vient de découvrir que la diffraction des rayons X peut être décrite par une transformée de Fourier de la densité électronique d’un cristal (voir chapitre 8). En bref, la figure 1.5 représente de petits paquets d’électrons, disposés périodiquement comme dans un cristal. Cet ensemble admet un développement en série de Fourier dont l’amplitude des termes d’ordre un, deux, trois, etc. est représentée sur le schéma (figure 1.5). Sir William Henry Bragg montre que ces termes sont reliés à l’intensité des taches de Bragg visibles sur les clichés de diffraction. Grâce à cela, les résolutions de structure deviennent plus faciles en théorie, mais encore difficiles en pratique car les calculs de séries de Fourier sont extrêmement longs à faire « à la main ». Il va falloir attendre le développement des premiers ordinateurs, aux alentours des années 70, pour que cette technique exprime toute sa puissance. Autour des années 1925–1930, les premiers résultats sont des déterminations de structures que l’on peut appeler ab initio, car elles ne nécessitent pas de connaissance a priori sur la structure, contrairement aux premières structures de W. Barlow. En 1929 c’est d’abord le chlorate de potassium dont W. Zachariasen résout la structure, puis en 1931 Kathleen Lonsdale résout celle de l’hexachlorure de benzène – confirmant par là le caractère cyclique de la molécule. En 1935 c’est le tour de la phtalocyanine, qui est une molécule constituée d’une soixantaine d’atomes, mais plane et symétrique. Puis, Dorothy Hodgkin détermine en 1945 la structure de la molécule de cholestérol et sa soixantaine d’atomes, puis, en 1954, la structure de la vitamine B12, qui possède environ deux cents atomes (figure 1.6). Densité électronique du cristal
Transformation de Fourier 0
1
2
Spectre de Fourier
3
4
5
amplitude
6
7
8
9
phase
Figure 1.5 Utilisation de la transformée de Fourier selon Sir William Henry Bragg. Dans cette représentation du spectre de Fourier, le diamètre du cercle représente l’amplitude, la couleur représente symboliquement la phase des ondes de la série (voir chapitre 8 pour plus de détails).
29
Introduction à la biocristallographie
1929 : Chlorate de Potassium
1931 : Hexachlorobenzène Hexachlo orobenzène orobenz
1945 : Cholestérol
1935 : Phtalocyanine
1954 : Vitamine B12
Figure 1.6 Évolution de la complexité des structures moléculaires résolues par cristallographie aux rayons X (Chlorate de potassium : https://commons.wikimedia.org/wiki/File:Potassium-perchlorate-unit-cell-3D-balls-perspective.png ; Hexachlorobenzène : https://fr.wikipedia.org/wiki/Fichier:Hexachlorobenzene3D-balls-B.png ; Phtalocyanine : https://commons.wikimedia.org/wiki/ File:Phthalocyanine-3D-balls.png ; Cholestérol : https://wa.wikipedia.org/wiki/ Im%C3%A5dje:Cholesterol_molecule_ball.png ; Vitamine B12 : https://commons.wikimedia.org/wiki/File:Cyanocobalamin-3D-sticks.png).
1.7 L’arrivée de la biologie Pour étudier la structure d’une macromolécule par cristallographie aux rayons X, le premier goulot d’étranglement est la cristallisation. La cristallographie se base sur l’obtention de cristaux de la cible étudiée. Comme les macromolécules biologiques sont des objets de grande taille, souvent flexibles, cette étape peut se révéler particulièrement délicate (voir chapitre 5). Dans le cas des protéines, la toute première observation remonte à 1840, par Friedrich Ludwig Hünefeld, qui a accidentellement découvert la formation de matière cristalline, sous forme de petits cristaux en forme de plaque dans des échantillons de sang desséchés (figure 1.7b). Cette observation a mis en évidence que des cristaux de protéine peuvent être obtenus par évaporation contrôlée, c’est-à-dire par déshydratation lente d’une solution concentrée, ce qui reste la base de la plupart des techniques actuelles de cristallisation (voir chapitre 5). Dans les années qui ont suivi, des cristaux d’hémoglobine ont été observés dans de nombreuses espèces animales, dont les caractéristiques sont regroupées dans un livre intitulé « Die Blutkrystalle » (Les cristaux de sang) publié en 1871 par William T. Preyer, professeur
30
Chapitre 1. Histoire de la cristallographie aux rayons X
à l’Université d’Iéna. En 1855, Theodor Hartig découvre une seconde famille de protéines sous forme cristalline ; ce sont des protéines de réserve de la noix du Brésil Bertholletia excelsa (figure 1.7a). Des cristaux seront également observés pour des protéines équivalentes, chez des espèces voisines de plantes.
Figure 1.7 (a) : image au microscope de cristaux d’hémoglobine (plaquettes rouges) au milieu de globules rouges (https://upload.wikimedia.org/wikipedia/ commons/a/a4/Hemoglobin_SC_Crystals.jpg), avec la molécule d’hémoglobine résolue par Max Perutz en incrustation (fichier 2dhb.pdb) ; (b) : de cristaux de protéines de réserve de noix du Brésil, connues sous le nom d’excelsine (d’après Mc Pherson, 1991).
Dans la première moitié du XXe siècle, de nombreuses protéines sont cristallisées (trypsine, carboxypeptidase, catalase, chymotrypsine, ribonucléase, uréase, …). Le principal procédé pour obtenir des cristaux, décrit par Thomas Osborne en 1907, est basé sur des extractions de protéines à partir de solutions salines chaudes (40–60 °C) suivies d’un lent refroidissement à température ambiante. De nombreux chercheurs ont mis en évidence l’importance de la température, du pH, de la force ionique, des solvants organiques ou encore des changements de phases sur la cristallisation. Ces principes sont toujours légion dans les expériences de cristallisation moderne. À ce moment, la cristallisation intéresse les scientifiques en tant que méthode pour purifier un échantillon et assurer l’homogénéité des préparations. Ainsi, la cristallisation d’enzymes telles que l’uréase par James B. Sumner en 1926, ou la pepsine en 1930 puis la trypsine et la chymotrypsine en 1931 et 1933 par John H. Northrop, leur ont valu le prix Nobel de chimie en 1946. La combinaison de la cristallisation et d’études biochimiques ont permis de démontrer qu’une enzyme parfaitement pure est active, et que l’entité catalytique est la protéine. Un virage essentiel dans l’étude des cristaux de protéines se produit en 1934, quand John Desmond Bernal et son élève Dorothy Hodgkin font une expérience de diffraction en utilisant pour la première fois des cristaux de protéines entourés de leur liqueur mère dans un tube capillaire. Auparavant, les cristaux de protéines étaient exposés à l’air avant l’exposition aux rayons X, ce qui les déshydratait et ne donnait
31
Introduction à la biocristallographie
La cristallographie aux rayons X et sa ribambelle de Prix Nobel (https://www.nobelprize.org/)
32
Année
Prix Nobel Auteurs
Raison
1901
Physique
Wilhelm Conrad Röntgen
Découverte des rayons X
1914
Physique
Max von Laue
Découverte de la diffraction des rayons X par des cristaux
1915
Physique
Sir William Henry Bragg, William Lawrence Bragg
Contribution à l’analyse de la structure cristalline au moyen des rayons X
1939
Physique
Ernest Orlando Lawrence
Invention et développement du cyclotron, et résultats obtenus avec, particulièrement dans le cadre des éléments radioactifs
1946
Chimie
James Batcheller Sumner
Découverte que les enzymes peuvent être cristallisées
John Howard Northrop, Wendell Meredith Stanley
Préparations d’enzymes et de virus sous forme pure (par utilisation de la cristallisation) Nature de la liaison chimique et élucidation de la structure de substances complexes
1954
Chimie
Linus Carl Pauling
1962
Médecine
Francis Harry Compton Crick, Découvertes concernant la structure moléculaire James Dewey Watson, Maurice des acides nucléiques et son importance pour le Hugh Frederick Wilkins transfert d’informations dans le matériel vivant
1962
Chimie
Max Ferdinand Perutz, John Cowdery Kendrew
Étude des structures de protéines globulaires
1964
Chimie
Dorothy Crowfoot-Hodgkin
Détermination par des techniques aux rayons X de structures de substances chimiques importantes
1982
Chimie
Aaron Klug
Développement de la microscopie électronique cristallographique et élucidation de la structure de complexes protéine / acide nucléique biologiquement importants
1985
Chimie
Herbert Aaron Hauptman, Jerome Karle
Résultats exceptionnels dans le développement de méthodes directes pour la détermination de structures cristallines
1988
Chimie
Johann Deisenhofer, Robert Huber, Hartmut Michel
Détermination de la structure tridimensionnelle du centre de réaction photosynthétique
1997
Chimie
Paul Delos Boyer, John Ernest Walker
Élucidation du mécanisme enzymatique sousjacent la synthèse de l’ATP
Jens Christian Skou
Première découverte d’une enzyme transporteur d’ions, la Na+, K+-ATPase
2003
Chimie
Peter Agre, Roderick MacKinnon
Détermination de la structure de canaux ioniques dans les membranes cellulaires
2009
Chimie
Venkatraman Ramakrishnan, Thomas Arthur Steiz, Ada Yonath
Études de la structure et de la fonction du ribosome
Chapitre 1. Histoire de la cristallographie aux rayons X
aucune diffraction observable. Ils constatent que les clichés de diffraction sont bien meilleurs qu’avec des cristaux séchés. C’est le premier diagramme de diffraction des rayons X d’un cristal de protéine. C’est également le début de la cristallographie biologique et probablement la naissance de la biologie structurale. Mais l’analyse des diagrammes de diffraction de cristaux de protéines était un problème complexe à résoudre. Le grand nombre de taches de diffraction (réflexions) nécessitait l’invention de méthodes d’acquisition des données et de caméras adaptées, comme la chambre de Weissenberg, développée en 1924, et capable d’enregistrer simultanément un grand nombre de réflexions. Cependant, la grande question était comment la phase associée à chaque réflexion allait pouvoir être déterminée ? À partir de 1937, Max Perutz travaille à l’analyse de cristaux de protéines, et obtient des images de diffraction à partir de cristaux d’hémoglobine. En 1945, John Kendrew commence une thèse avec Perutz et travaille sur des cristaux de myoglobine, protéine qui a l’avantage d’être 4 fois plus petites que l’hémoglobine. En 1953, un nouveau virage s’opère pour la cristallographie biologique grâce à l’utilisation de la méthode du remplacement isomorphe par Perutz pour résoudre le problème de la phase des taches de diffraction de l’hémoglobine. Il réussit à incorporer du mercure benzoyle dans les cristaux d’hémoglobine, enregistre les diagrammes de diffraction, et localise la position de l’atome lourd, le mercure, grâce à la différence entre les données natives et les données dérivées (voir § 11.1). En 1957, Kendrew résout la structure de la myoglobine par cette approche et atteint une résolution atomique en 1959, qui est également l’année de la résolution de la structure de l’hémoglobine par Perutz. En 1962, ils partagent le prix Nobel de chimie pour ces études des structures de protéines globulaires. Le cas de la structure de l’ADN est un tout petit peu différent puisque les données utilisées étaient des données de diffraction de fibres d’ADN B (voir § 1.8). Même si la structure de plusieurs protéines a été résolue à la suite de celles de l’hémoglobine et la myoglobine, l’analyse par rayons X de cristaux de protéines posait d’énormes problèmes, qu’il s’agisse de la préparation de dérivées d’atomes lourds ou de la nécessité d’utiliser plusieurs dérivés pour lever l’ambiguïté des phases (voir § 11.1). Pour limiter le nombre de dérivés d’atomes lourds, en 1954, Johannes Bijvoet propose d’exploiter le signal de diffusion anomale, en utilisant une longueur d’onde similaire à celle du seuil d’absorption de l’atome lourd présent dans le cristal (voir § 11.2). Cette approche sera utilisée avec succès d’abord pour une molécule organique par Gopalasamudram Ramachandran en 1956, puis pour une protéine par David Blow et Michael Rossman, en 1959. En 1962, David Blow et Michael Rossman proposent une approche basée sur la connaissance préalable d’un fragment de la molécule contenu dans le cristal ou d’une molécule similaire, en utilisant la fonction de Patterson et les symétries non cristallographiques. Cette méthode sera appelée remplacement moléculaire par Michael Rossman en 1972 (voir chapitre 10). Quelle que soit la méthode, les calculs nécessaires pour résoudre une structure étaient limités par la faible puissance des ordinateurs de l’époque, et la mise en commun des moyens a permis d’accélérer et d’optimiser les méthodes de résolution des structures (voir § 1.9 pour le rôle du CCP4). La cristallographie biologique n’avait plus qu’à se développer et à s’intéresser à des protéines et assemblages moléculaires de plus en plus complexes : protéines membranaires, assemblages nucléo-protéiques, virus, … (voir l’encadré sur La cristallographie aux rayons X et sa ribambelle de Prix Nobel).
33
Introduction à la biocristallographie
1.8 Rosalind Franklin et le secret du cliché 51 Dans les années 50, des chercheurs que l’on n’appelait pas encore bio-cristallographes commencent à s’intéresser à d’autres types de molécules, les acides nucléiques. Depuis les travaux d’Oswald Avery, en 1944, il devient de plus en plus clair que l’acide désoxyribonucléique, l’ADN, est bien le support de l’hérédité. Cependant, la structure de cette molécule complexe reste inconnue, bien qu’en 1937 au laboratoire de physique des textiles de Leeds, Florence Bell et William Astbury avaient suggéré, en utilisant les rayons X, que les bases de l’ADN s’empilaient comme des pièces de monnaie – a pile of pennies – distantes de 3,34 Å. Les travaux sur la structure de l’ADN ne reprennent qu’un peu après la guerre au King’s College de Londres, alors dirigé par John Randall, qui confie à Maurice Wilkins et son étudiant Raymond Gosling l’étude structurale de l’ADN. En 1950, ils obtiennent le premier cliché d’ADN de thymus de veau cristallisé, dans sa forme A (figure 1.8) : un très beau résultat. Randall fait alors venir au King’s College une jeune Anglaise qui rentrait de son « post-doc » à Paris, Rosalind Franklin, et lui demande de travailler sur l’ADN avec Gosling sans prévenir Wilkins. Cette erreur de management a eu pour résultat de brouiller Wilkins et Franklin, qui deviennent des rivaux au sein du même laboratoire.
ADN A
ADN B
Figure 1.8 Forme A (rouge, fichier 1d13.pdb) et B (bleue, fichier 5dnb.pdb) de l’ADN.
Cette situation se complique encore par l’entrée en lice de deux chercheurs inspirés par les résultats de Wilkins, Francis Crick et James Watson. Ils se mettent à travailler sur l’ADN au fameux laboratoire Cavendish de Cambridge, alors dirigé par Lawrence Bragg. Par ailleurs, de l’autre côté de l’Atlantique, le grand chimiste de Caltech Linus Pauling, après avoir découvert en 1951 l’hélice α des protéines, cherche également un modèle de la molécule d’ADN. Les ingrédients d’une course poursuite sont en place. Cependant, de tous ces chercheurs, seuls ceux de King’s College font des expériences de diffraction et c’est Rosalind Franklin qui va faire les avancées les plus importantes. Elle met d’abord en évidence une autre forme de l’ADN, dite forme B, qui s’observe avec un taux d’humidité plus grand que la forme A. Il s’agit d’une phase désordonnée, dans laquelle on ne voit pas de taches de Bragg (figure 1.9). Grâce à ses clichés de diffraction, elle reconnaît que l’ADN sous cette forme est hélicoïdal et déduit très justement de ses expériences que les groupements phosphates hydrophiles sont à l’extérieur de la molécule.
34
Chapitre 1. Histoire de la cristallographie aux rayons X
Le fameux cliché 51 (figure 1.9) a été pris le 1er mai 1952, en 60 heures de pose, par Raymond Gosling et Rosalind Franklin. Avant son départ pour un autre laboratoire, elle le fait parvenir à Wilkins fin janvier 1953, et ce dernier le montre à Watson lors d’une visite au King’s, le 30 janvier, à l’insu de Rosalind. C’est un des tournants de cette histoire, que James Watson décrit en ces termes dans son livre « la double hélice » (Watson, 1999) : « Dès que je vis cette image, je restais bouche bée et mon poul s’accéléra […] La croix noire des réflexions qui dominait dans l’image ne pouvait venir que d’une structure hélicoïdale ». Cette croix est en effet caractéristique de la diffraction par une hélice, dont on peut alors trouver les paramètres : un pas de 3,4 nm et un diamètre de 2 nm. Grâce à cette information et d’autres, venant également du King’s College, Watson et Crick auront la certitude que l’ADN avait une forme d’hélice et un mois après, le 28 février, après de multiples essais, ils trouveront que c’est l’appariement et non l’empilement des bases qui permet de comprendre la structure de l’ADN.
Figure 1.9 Cliché 51 de la forme B de l’ADN (https://en.wikipedia.org/wiki/Photo_51#/ media/File:Photo_51_x-ray_diffraction_image.jpg).
En recevant leur prix Nobel en 1962, Watson et Crick ne mentionnèrent pas les travaux de Rosalind Franklin. Seul Wilkins les évoqua succinctement et signala sa disparition en 1958. Elle était décédée d’un cancer des ovaires, peut-être dû à ses manipulations aux rayons X. Dans son livre, écrit en 1968, James Watson fait de Rosalind Franklin un portrait peu flatteur, voire calomnieux, minimisant son travail et ses compétences, ce qui lança une polémique sur son rôle dans la découverte. Ses collègues et amis prirent sa défense, comme Aaron Klug (Klug, 1968), futur prix Nobel de chimie, ou Anne Sayre, qui écrivit un livre sur elle en 1975 (Sayre, 1975). Depuis, de multiples ouvrages ont pleinement réhabilité Rosalind Franklin (Maddox, 2012 ; Williams, 2019) et ont montré l’importance de ses travaux dans le processus de découverte… et Watson et Crick ont reconnu l’avoir discréditée. Du point de vue du cristallographe, il est piquant de constater que cette découverte ne s’est pas faite par une analyse « classique » des cristaux d’ADN (la forme A), ce que Rosalind Franklin essayait de faire, mais en travaillant sur une phase désordonnée
35
Introduction à la biocristallographie
(la forme B) et en testant des modèles, ce qu’ont fait Watson et Crick. Le squelette de l’ADN étant finalement assez simple (une échelle vrillée), c’est cette méthode qui a mené à la solution. Et il a fallu attendre une dizaine d’année pour que la structure atomique soit résolue par les méthodes expliquées dans ce livre.
1.9 CCP4 : Collaborative Computational
Project No 4
Pour clore ce voyage dans le temps, nous allons revenir dans les années 70. La cristallographie biologique est en train d’émerger. Les molécules du vivant sont des objets très différents des molécules étudiées en chimie : elles sont gigantesques et ont des propriétés géométriques et qualitatives bien particulières. Les cristallographes doivent repenser la méthode pour l’adapter aux macromolécules ; ils doivent repenser les solutions qui vont permettre de résoudre les structures tridimensionnelles. Les ordinateurs existent, mais les besoins de calcul de la cristallographie biologique sont considérables. La Grande-Bretagne est en avance, et le UK Science Research Council, qui représente l’équivalent du CNRS français, comprend la nécessité de mettre en place des collaborations pour optimiser l’utilisation des outils de calcul. Il finance une série de projets appelés CCPs ; pour « Collaborative Computational Project », ce qui signifie « Projet de Calcul Collaboratif ». Celui qui nous intéresse et a joué un rôle majeur en cristallographie biologique est le projet numéro 4 : CCP4, qui reste une référence en cristallographie biologique (http://www.ccp4.ac.uk/). Le projet CCP4 est lancé en 1979. Les intérêts associés à ce projet concernent avant tout la petite communauté des cristallographes des macromolécules, répartie principalement entre Cambridge et Oxford. Ces cristallographes ont besoin d’aide dans le développement de nouveaux algorithmes, mais aussi dans l’installation et la maintenance des logiciels. Nous sommes dans les années 70, l’esprit communautariste est dans l’air du temps. Ainsi, les partenaires du projet CCP4 décident qu’il n’y aurait pas UN groupe unique détenteur d’un monopole de bonnes idées, et qu’il n’y aurait pas de question de propriété intellectuelle. Grâce au langage Fortran, les développeurs peuvent se pirater facilement les uns les autres. À une période où internet n’existe pas, les fonds alloués pour le CCP4 sont essentiellement utilisés pour faire des réunions face-à-face. L’état d’esprit est à l’entraide, et aussi à ce qu’on appelle le « Bottom-Up », une démarche ascendante où les utilisateurs donnent leurs besoins et les développeurs cherchent comment y répondre. Les objectifs de CCP4 sont : – Encourager le développement collaboratif de logiciels en cristallographie macromoléculaire ; – Fournir des logiciels pour les étapes de cristallographie macromoléculaire ; – Promouvoir l’enseignement de la cristallographie macromoléculaire. Ce projet a permis de soutenir les collaborations entre les chercheurs travaillant sur des logiciels adaptés à la cristallographie des protéines, d’abord en Grande-Bretagne.
36
Chapitre 1. Histoire de la cristallographie aux rayons X
Le but était de rassembler une collection complète de logiciels pour répondre aux exigences des groupes britanniques, puis rapidement du monde entier. Quelle que soit l’étape de résolution d’une structure par cristallographie, il faut se référer aux propriétés : – – – –
Des données de diffraction ; De diffusion des atomes ; Des cristaux : comme leurs symétries ; De la transformée de Fourier.
Pour répondre à cela, CCP4 a mis en place ou généralisé l’utilisation : – Des librairies communes qui peuvent être utilisées par tous les logiciels ; – Des standards de formats pour les réflexions, d’abord le format LCF puis le format actuel MTZ. En bref, ce sont des fichiers binaires, lus directement par les logiciels, qui contiennent toutes les informations des données de diffraction ; – Une suite de programmes modulables : chaque nouveau logiciel peut être intégré sans modifier le reste ; – Un forum de discussion : en particulier la « mailing list » du ccp4bb, pour ccp4 bulletin board, permet de poser des questions à l’ensemble de la communauté. Il en résulte des idées intéressantes, et quelque fois des discussions d’experts passionnantes ; – Un week-end de formation : chaque année, un thème est approfondi, et permet aux utilisateurs de rencontrer les auteurs des programmes, et d’approfondir la théorie sous-jacente. Depuis 1979, CCP4 est devenu progressivement une référence internationale en cristallographie. Ce type d’organisation collaborative s’est avérée efficace dans d’autres cas comme le système d’exploitation UNIX, le développement du logiciel Blender 3D, ou encore la ressource Wikipédia. En résumé, les effets de CCP4 peuvent s’énumérer ainsi : – – – – –
Une accélération du développement des logiciels ; Une accélération des développements méthodologiques ; Des standards internationaux stables ; Un partage des données, du savoir, des maintenances ; Un esprit d’entraide.
Une conséquence majeure est également l’existence d’une réelle communauté internationale capable de se mobiliser sur des besoins comme le développement de centres de rayonnement synchrotron, ou sur des nouvelles questions méthodologiques, comme celles posées actuellement par la cryo-microscopie électronique. Pour finir, la frise chronologique en page suivante vous permet de repérer en un coup d’œil les grandes étapes de la construction de la méthode (en jaune), des analyses structurales (en bleue) et de la cristallographie biologique en elle-même (en vert).
37
Introduction à la biocristallographie
38
Chapitre 1. Histoire de la cristallographie aux rayons X
39
Introduction à la biocristallographie
Références Publications : – N. Bonod (2019). Physicien célèbre: Max von Laue. Photoniques, EDP Sciences, 2019, 98, pp. 18-19. – J.C. Brooks-Bartlett & E.F. Garman (2015) The Nobel Science: One Hundred Years of Crystallography, Interdisciplinary Science Reviews, 40, 244-264. – R. Giege, R (2013) A historical perspective on protein crystallization from 1840 to the present day. FEBS Journal, 280, 6456–6497 – A. Klug (1968) Rosalind Franklin and the Discovery of the Structure of DNA. Nature 219, 808. – B. Maddox (2012) Rosalind Franklin, la dark lady de l’ADN, Des femmes, Paris. – A. Mc Pherson (1991) A brief history of protein crystal growth. J. Cryst. Growth, 110, 1-10 – A. Sayre (1975) Rosalind Franklin and DNA, W.W. Norton, New york. – J.D. Watson (1968) The double Helix, Simon and Schuster, New york ; édition annotée (2012) Traduction française : La double hélice, Fayard, 1999 – G. Williams (2019) Unravelling the double helix, Pegasus books Ltd, New york.
Sites web : https://fr.wikipedia.org/wiki/Wilhelm_Röntgen https://upload.wikimedia.org/wikipedia/commons/9/92/Crookes_tube.jpg https://fr.wikipedia.org/wiki/Wilhelm_Röntgen#/media/Fichier:First_medical_Xray_by_Wilhelm_Röntgen_of_his_wife_Anna_Bertha_Ludwig’s_hand__18951222.gif https://fr.wikipedia.org/wiki/René_Just_Haüy#/media/Fichier:Hauy_Molécule_ intégrante.jpg https://commons.wikimedia.org/wiki/File:NaCl.png https://fr.m.wikipedia.org/wiki/Fichier:Boron-arsenide-unit-cell-1963-CM-3Dballs.png https://fr.m.wikipedia.org/wiki/Fichier:CaF2_polyhedra.png https://commons.wikimedia.org/wiki/File:Titaniumdioxide_unit_cell_rutile.svg https://commons.wikimedia.org/wiki/File:Potassium-perchlorate-unit-cell-3Dballs-perspective.png https://fr.wikipedia.org/wiki/Fichier:Hexachlorobenzene-3D-balls-B.png https://commons.wikimedia.org/wiki/File:Phthalocyanine-3D-balls.png https://wa.wikipedia.org/wiki/Im%C3%A5dje:Cholesterol_molecule_ball.png
40
Chapitre 1. Histoire de la cristallographie aux rayons X
https://commons.wikimedia.org/wiki/File:Cyanocobalamin-3D-sticks.png https://upload.wikimedia.org/wikipedia/commons/a/a4/Hemoglobin_SC_ Crystals.jpg https://en.wikipedia.org/wiki/Protein_crystallization http://www.ccp4.ac.uk/ https://www.nobelprize.org/ https://fr.wikipedia.org/wiki/Acide_désoxyribonucléique#/media/Fichier:A-B-ZDNA_Side_View.png https://en.wikipedia.org/wiki/Photo_51#/media/File:Photo_51_x-ray_diffraction_image.jpg
41
Introduction à la biocristallographie
Vidéos assosiées 1.1 Histoire de la cristallographie aux rayons X : les débuts https://youtu.be/uBMipJbzz48
1.2 Histoire de la cristallographie aux rayons X : suite https://youtu.be/Xzgv5wtgcco
1.3 Le rôle du CCP4 https://youtu.be/unlDN2HfLkY
42
Chapitre 2 Préparation des échantillons
2.1 Connaître son échantillon Pour cristalliser une macromolécule biologique et mener à bien une étude structurale, les quantités d’échantillon nécessaires sont souvent de l’ordre du milligramme. Il s’agit d’une très grande quantité dont la préparation peut prendre entre plusieurs semaines et plusieurs mois. Dans le cas d’une protéine, une première étape délicate consiste à définir correctement la portion de séquence que l’on va cloner, produire et purifier, pour optimiser les chances de la cristalliser. La production, la purification, et la cristallisation d’une protéine nécessitent certaines conditions pour être réalisables (figure 2.1) : – L’étape de production impose de bien connaître la séquence du gène codant pour la protéine étudiée ; la connaissance des modifications post-traductionnelles est également essentielle pour choisir l’organisme de production de façon adaptée ; – L’étape de purification est conditionnée par la solubilité et la stabilité de la portion choisie qui permettra, ou non, d’obtenir une quantité suffisante de la protéine d’intérêt ; – L’étape de cristallisation n’est envisageable que si la pureté chimique, l’homogénéité conformationnelle et la solubilité sont satisfaisantes.
43
Introduction à la biocristallographie
Etape
Pré-requis
Production
Séquence, Modications post-traductionnelles
Purication
Solubilité, Stabilité
Cristallisation
Pureté, Solubilité
Figure 2.1 Les étapes de préparation d’un échantillon biologique pour la cristallisation.
2.1.1
Prédiction des régions structurées d’une protéine
L’information indispensable à connaître est la séquence du gène qui code pour la protéine étudiée, que ce soit la séquence nucléotidique du gène ou la séquence en acides aminés de la protéine. Dans certains cas, il peut être nécessaire d’adapter la séquence nucléotidique pour qu’elle soit compatible avec une production réalisée par des microorganismes simples comme des bactéries ou des levures. Par exemple, s’il s’agit d’une protéine humaine, la séquence nucléotidique peut comporter des codons qui sont rares chez la bactérie utilisée pour l’étape de production, ce qui ralentit considérablement l’étape de traduction de la protéine par le ribosome et diminue la quantité de protéine produite. Dans ce cas, il sera nécessaire de modifier le gène et de remplacer le codon rare par un codon plus fréquent chez la bactérie. Pour anticiper les conditions optimales de cristallisation, il est important d’avoir une idée des régions structurées et des régions dépliées, d’essayer de prédire ces régions à partir de la seule séquence protéique. Les acides aminés sont les blocs de base qui constituent la séquence protéique. Ils possèdent un groupe fonctionnel amine NH2, un groupe acide carboxylique COOH, et une chaîne latérale R (voir encadré sur les 20 acides aminés). Ces chaînes latérales ont des propriétés chimiques différentes. Il existe plusieurs classifications selon la question posée, mais on trouve des chaînes latérales : – Polaires, chargées positivement (Arg, His, Lys) ou négativement (Asp, Glu) ; – Polaires mais non chargées (Asn, Gln, Ser, Thr) ; – Non polaires et hydrophobes (aliphatiques : Ala, Val, Leu, Ile, Met ; aromatiques : Phe, Tyr, Trp) ; – Avec des propriétés spécifiques, elles sont dans ce cas classées séparément (Gly, Pro, Cys). Ainsi, selon leur chaîne latérale, les acides aminés auront des propriétés chimiques différentes. Qui dit propriétés chimiques (ou électrochimiques) différentes dit
44
Chapitre 2. Préparation des échantillons
aussi propriétés structurales différentes pour la protéine. En se basant sur des structures de protéines déjà connues, il est possible de catégoriser des propriétés structurales différentes selon les chaînes latérales des acides aminés. C’est ce qu’on appelle la structure secondaire. Par exemple, la tendance d’un acide aminé à se trouver plutôt enfoui, en surface, ou à se retrouver dans un type de structure plutôt qu’un autre, est liée aux propriétés de sa chaîne latérale. Différents types de structures secondaires ont ainsi été décrits, comme les hélices α, les brins β et plusieurs types de coudes (figure 2.2).
Brins β
Hélices α
Figure 2.2 Structures secondaires caractéristiques, en représentation dite cartoon en haut, et en représentation bâtonnet du squelette carboné en bas.
Cependant, la prédiction des structures secondaires basée seulement sur la séquence en acides aminés est peu fiable. En plus de la tendance observée d’un acide aminé à se trouver dans des structures secondaires spécifiques, l’enchaînement des acides aminés dans la séquence constitue en lui-même une information importante. L’ensemble des génomes déjà séquencés fournit une base de données qui permet de comparer la séquence de la protéine étudiée à celle d’autres organismes. Des séquences voisines à celle de la protéine étudiée, retrouvées dans d’autres organismes, suggèrent que leurs structures tridimensionnelles sont probablement similaires. Pour effectuer ces alignements, il existe des logiciels capables de rechercher des similarités ou des homologies de séquences dans les bases de données. Par exemple, dans le cas du logiciel standard BLAST (Basic Local Alignment Search Tool) une fenêtre dédiée permet d’entrer directement la séquence de la protéine étudiée et de choisir l’algorithme adapté au cas d’étude. Après la recherche, effectuée en ligne, la séquence de la protéine étudiée est alignée avec toutes celles qui lui sont analogues (figure 2.3).
45
Introduction à la biocristallographie
Les 20 acides aminés naturels que l’on trouve dans les protéines, par ordre alphabétique. Dans le tableau ci-dessous, les atomes sont colorés en jaune pour le carbone, bleu pour l’azote, rouge pour l’oxygène, orange pour le soufre et blanc pour l’hydrogène. Chaque acide aminé est orienté de gauche à droite depuis l’extrémité N-terminale vers l’extrémité C-terminale, avec l’azote en bas à gauche, le carbonyle en bas à droite, et la chaîne latérale pointée vers le haut. Les pourcentages indiquent leur proportion moyenne au sein des protéines (https://www.uniprot. org/statistics/Swiss-Prot) :
Alanine : 8.2%
Arginine : 5.5%
Asparagine : 4.0%
Aspartate : 5.4%
Cystéine : 1.3 %
Glutamine : 3.9%
Glutamate : 6.7%
Glycine : 7.0%
Histidine : 2.2%
Isoleucine : 5.9%
Leucine : 9.6%
Sérine : 6.5%
Lysine : 5.8%
Thréonine : 5.3%
Méthionine : 2.4% Phénylalanine : 3.8%
Tryptophane : 1.0%
Tyrosine 2.9%
Proline : 4.7%
Valine : 6.8%
De nombreux algorithmes permettent de prédire les structures secondaires en se basant à la fois sur les propriétés des chaînes latérales des acides aminés, et sur leur conservation à travers les espèces. Plus il y a de séquences homologues répertoriées pour une protéine donnée, plus les prédictions de structures secondaires sont fiables. S’il existe suffisamment de séquences homologues à celle qui nous intéresse, il est possible de définir des régions très conservées, moyennement, faiblement ou non conservées. Il est également possible de prédire la présence de structures secondaires comme les brins bêta ou hélices alpha. Les régions riches en structures secondaires correspondent généralement à des régions compactes, et celles qui ne contiennent pas de structures secondaires à des régions plus désordonnées et flexibles. Un domaine compact ou globulaire est généralement plus facile à produire en grande quantité car le repliement de la séquence a un effet stabilisateur. Par ailleurs, des régions déstructurées ne cristallisent généralement pas, parce qu’elles adoptent une multitude de
46
Chapitre 2. Préparation des échantillons
conformations en solution. Par conséquent, l’homogénéité nécessaire à la cristallisation est absente.
Figure 2.3 Interface du logiciel de recherche de séquences homologue BLAST (http://blast.ncbi.nlm.nih.gov/Blast.cgi).
2.1.2
Approche biochimique : la protéolyse ménagée
Le principe de la protéolyse limitée est d’incuber la protéine qui nous intéresse avec une concentration relativement faible d’enzymes spécifiques appelées protéases (voir encadré sur les principales protéases et leur spécificité). Chaque protéase reconnaît une séquence de quelques acides aminés et coupe la chaîne principale au niveau des sites de reconnaissance dans toute la protéine, normalement dans les régions exposées telles que les boucles et autres régions flexibles qui ne sont pas protégées au sein de domaines repliés. Pour effectuer une protéolyse ménagée, la principale contrainte est que, dans un premier temps, il est nécessaire de produire et purifier une petite quantité de protéine entière. Après action de la protéase, une étape de purification, par gel filtration par exemple, permet de séparer les domaines repliés les uns des autres. L’analyse de la séquence de ces domaines protégés permet d’en déterminer les limites. Une fois définies les limites des domaines repliés, on peut choisir de travailler directement avec les domaines séparés après protéolyse, ou de commander le gène correspondant au domaine repéré par séquençage et passer à l’étape du clonage (figure 2.4).
47
Introduction à la biocristallographie
sites de coupure protéase
Figure 2.4 Représentation des domaines globulaires d’une protéine (bleu, vert, rouge), préservés après digestion des régions non protégées (gris) par une protéase.
Les protéases et la protéolyse ménagée Les protéases sont des enzymes capables d’hydrolyser la liaison peptidique entre deux acides aminés d’une protéine. La spécificité d’une protéase est définie selon la séquence de résidus (en code à une lettre) de la protéine substrat localisée autour du site de coupure. Cette séquence est notée de P4 à P’2, le site de coupure se situe entre P1 et P’1. Le tableau ci-dessous indique quelques protéases utilisées en routine pour effectuer des protéolyses ménagées, avec leur spécificité. Comme les spécificités ne sont pas absolues, plusieurs résidus peuvent être indiqués pour une position donnée. D’autres résidus peuvent bloquer l’action de l’enzyme, ils sont indiqués sous forme barrée à la position correspondante (https://web.expasy.org/peptide_cutter/peptidecutter_enzymes.html). Nom
P4
P3
P2
P1
Protéinase K
-
-
-
Protéinase C-Arg
-
-
R
-
P’2 -
Endopeptidase N-Asp -
-
-
A/E/F/I/L / T/V/W/Y D
-
-
-
W
M ou P
-
-
W
M ou P
-
-
H
D. M. P ou W
A/F/G/I/ L/T/V/W -
P
R
D ou E
D ou E
W M H. K ou R P H. K ou R P H. K ou R P
K/R K R R F/L R
P P P F/L F/L/W/Y
P P P
D/E
K
-
-
Chymotrypsine Haute afnité
-
Chymotrypsine Basse afnité -
Thermolysine Thrombine Trypsine
Pepsine (pH 1,3) Pepsine (pH > 2) Entérokinase
48
-
P’1
-
-
A/F/G/I/ L/T/V/M -
-
D/E
-
-
-
-
H. K ou R P
D/E
F/Y
F/L/Y
M
D ou E
F/L/W/Y
P
-
P
P ou Y
A/F/I/L/M/V
-
P
Chapitre 2. Préparation des échantillons
2.2 Clonage, production, purification
des échantillons
L’analyse de la séquence a permis de définir la portion de protéine qui peut être étudiée par cristallographie. Pour effectuer ce type d’étude structurale, il est nécessaire de préparer des quantités de la protéine d’intérêt de l’ordre du milligramme ou de la dizaine de milligrammes, avec une pureté supérieure à 95 %. La pureté de l’échantillon est un élément important pour l’obtention de cristaux. L’obtention d’une quantité de protéine de l’ordre de quelques centaines de microgrammes est nécessaire afin d’obtenir un échantillon à une concentration compatible avec les essais de cristallisation ainsi que pour reproduire et optimiser les premières pistes. Il est très rare qu’une molécule biologique soit suffisamment abondante et homogène à l’état naturel pour répondre aux impératifs de la cristallisation. C’est pourquoi des méthodes alternatives sont utilisées pour produire la protéine d’intérêt. La préparation de l’échantillon peut être décrite en trois étapes : le clonage, la production et la purification.
2.2.1
Le clonage
L’approche la plus fréquente pour produire une macromolécule utilise les machineries naturelles disponibles dans des micro-organismes tels que la bactérie Escherichia coli, des levures, ou encore des cellules d’insecte ou de mammifère. Ce type de cellule est appelée la cellule hôte. Elle contient son propre ADN. L’objectif est que cette cellule hôte soit capable de produire la protéine étudiée en très grande quantité. Cette production est appelée surexpression, et la protéine surexprimée est la cible. Le gène codant pour la protéine cible est inséré dans un fragment d’ADN qui peut également contenir un fragment supplémentaire en amont ou en aval du gène cible. Par exemple, une séquence d’adressage permet de diriger la protéine cible vers le noyau, vers la membrane ou vers l’extérieur de la cellule, selon où il est préférable qu’elle soit stockée, après avoir éventuellement ôté l’étiquette naturelle de la protéine. Il est également fréquent d’avoir recours à une séquence codant pour une « étiquette ». Cette étiquette peut être une séquence courte en acides aminés, généralement une suite de résidus d’histidine, ou une protéine (MBP, GST, TRX, …) dont les propriétés facilitent à la fois la production de la protéine cible, et sa purification. La présence de l’étiquette facilitera la purification par chromatographie d’affinité. Enfin, un site de coupure, reconnu par une protéase spécifique, permet de supprimer l’étiquette en fin de préparation de l’échantillon (figure 2.5).
49
Introduction à la biocristallographie
cib le pr ot éi ne
e co up ur de sit e
sit e
d’ ad re ss ag e ét iq ue tte
ADN codant pour :
Figure 2.5 Fragment d’ADN contenant le gène de la protéine cible, un site d’adressage, une étiquette et un site de coupure.
Pour que la cellule hôte soit capable de surexprimer la protéine cible, le fragment d’ADN porteur du gène de la protéine cible est inséré dans un ADN circulaire, appelé plasmide : c’est l’étape de clonage. Après le clonage, la transformation, souvent considérée comme partie intégrante du clonage, consiste à infecter la cellule hôte avec le plasmide porteur du gène cible. Après cette étape, la cellule hôte est capable de produire la cible en utilisant sa propre machinerie de production (figure 2.6). séquence codant pour la cible
infection
cellule hôte
ADN de l’hôte
plasmide
Figure 2.6 Transformation de la cellule hôte par le plasmide portant la séquence du gène codant pour la protéine cible.
2.2.2
La (sur)production
La cellule hôte est placée dans un flacon qui contient un milieu nutritif favorable à sa croissance, c’est la mise en culture. Pendant une première phase, les cellules se divisent et se multiplient rapidement. Au cours de cette première étape, le promoteur qui permet l’expression du gène codant pour la protéine cible n’est pas activé, la protéine cible n’est donc pas produite. Lorsque la masse critique de cellules est optimale, une petite molécule capable d’activer
50
Chapitre 2. Préparation des échantillons
le promoteur est ajoutée dans le flacon, c’est l’induction de la production de la cible par les cellules hôtes en culture. À partir de ce moment, les cellules continuent à se diviser, et simultanément, leurs machineries de transcription et de traduction produisent la protéine cible. Après quelques heures, du fait de la quantité limitée de nutriments dans le milieu de culture, la division cellulaire ralentit. À ce moment, il est nécessaire d’arrêter la production avant son déclin (figure 2.7).
1/ Croissance
2/ Induction de la production
cellule hôte
traduct traduction ducttion n
3/ Production Figure 2.7 Production de la protéine cible par la cellule hôte.
En fin de production, pour un projet favorable et lorsque les conditions ont bien été optimisées, la quantité d’échantillon dans 1 litre de culture varie entre quelques milligrammes et quelques centaines de milligrammes. Quoi qu’il en soit, la proportion de molécule cible est très faible par rapport à l’ensemble du matériel présent dans le milieu de culture : parois cellulaires, ADN, protéines, sucres, lipides de l’hôte, etc. ce qui rend nécessaire la purification de la protéine. Dans certains cas, l’étape de production doit être adaptée pour incorporer des acides aminés particuliers dans la protéine étudiée, comme des séléno-méthionines (voir encadré sur la production de protéines marquées aux Sélénométhionines (SeMet)).
51
Introduction à la biocristallographie
Production de protéines marquées aux séléno-méthionines (SeMet) Pour exploiter le signal de diffusion anomale d’un élément (§ 4.3 et 11.2), une approche fréquemment utilisée est d’introduire des atomes de sélénium directement dans la séquence de la protéine. En effet, le signal anomal du sélénium se situe à la longueur d’onde de 0,98 Å, facilement accessible sur une ligne synchrotron. Le sélénium a des propriétés chimiques voisines de celles du soufre, ce qui permet de remplacer les méthionines d’une protéine par des séléno-méthionines (SeMet) sans affecter ses propriétés structurales. La première approche pour substituer les SeMet aux méthionines implique l’utilisation comme cellule hôte d’une souche bactérienne (Escherichia coli) auxotrophe pour la méthionine, c’est-à-dire incapable de synthétiser ellesmêmes les méthionines. Cette approche historique est facile à mettre en place et permet une substitution de sélénium voisine de 100 %. Pour la production, la cellule hôte est placée dans un flacon qui contient un milieu favorable à sa croissance supplémenté en SeMet. Ainsi, les cellules produisent en masse la protéine d’intérêt en incorporant des SeMet à la place des méthionines. Cependant, le rendement en protéine n’est souvent que de 15 à 20 %, et la culture d’E. coli en milieu minimal est plus longue qu’en milieu standard. À la place, il est aussi possible d’utiliser des souches qui ne sont pas auxotrophes, dans lesquelles la biosynthèse de la méthionine est inhibée avant l’induction. Par cette approche, l’incorporation de SeMet se situe autour de 90 % avec un meilleur rendement en protéines. À la place de la bactérie E. coli, il est possible d’utiliser des cellules d’insectes infectées par des baculovirus ou des cellules de levures, mais la cytotoxicité de SeMet conduit à une incorporation du sélénium souvent autour de 50 % seulement. Des lignées cellulaires de mammifères peuvent aussi être utilisées comme hôtes d’expression et adaptées à la production des protéines marquées SeMet. Selon le type cellulaire l’incorporation peut varier de 60 à 90 %. Références : Hendrickson, W. A., Horton, J. R. & LeMaster, D. M. (1990). EMBO J.9, 1665–1672. Doublié, S. (1997). Methods Enzymol.276, 523–530. Walden, H. (2010) Acta Crystallogr D Biol Crystallogr., 66, 352–357.
2.2.3
La purification
Dans la plupart des méthodes d’expression, la protéine cible se trouve à l’intérieur des cellules hôtes. La première étape consiste à centrifuger l’échantillon afin de récupérer les cellules, qui sont ensuite resuspendues dans une solution tampon. L’étape suivante est la clarification qui consiste en une lyse suivie d’une centrifugation. La lyse des parois cellulaires libère leur contenu dans le tampon de lyse (figure 2.8).
52
Chapitre 2. Préparation des échantillons
Au cours de la centrifugation qui suit, les parois cellulaires et autres composés non solubles forment un culot. Si la protéine cible est bien soluble, elle reste dans la fraction soluble, qui contient également les autres protéines et composés solubles de la cellule hôte.
lyse
Figure 2.8 Lyse des parois et libération du contenu cellulaire.
À ce stade, l’étiquette et le site de coupure facilitent la purification. L’étiquette doit ressembler le moins possible aux composants présents dans les cellules de production, et elle est choisie pour ses propriétés d’interaction au cours de la purification. En effet, on utilise d’abord une colonne d’affinité spécifique de l’étiquette, c’est-à-dire une colonne sur laquelle l’étiquette associée à la protéine cible va se lier préférentiellement. Le surnageant provenant de l’étape de lyse est injecté sur la colonne, et l’ensemble des composés qui ne sont pas capables d’interagir avec cette colonne vont passer dans le filtrat (appelé « flow through ») (figure 2.9-1). Par contre, grâce à son étiquette, la molécule cible reste accrochée à la colonne (figure 2.9-2). Puis, pour décrocher la protéine cible, un compétiteur est injecté (figure 2.9-3), il va interagir fortement avec l’étiquette et la déplacer de la colonne d’affinité par compétition. La cible est récupérée en une fois dans l’éluat (figure 2.9-4). À cette étape, la solution de protéines atteint une pureté de l’ordre de 80 %. La protéine cible est toujours couplée à l’étiquette, qu’il est préférable de supprimer avant de poursuivre les études de biologie structurale. Le site de coupure a été choisi parce qu’il est reconnu par une protéase hautement spécifique, capable de couper la construction protéique à ce niveau, et qui est ajoutée à la solution éluée. Après incubation sous agitation pour que la réaction soit complète, la solution contient la protéine cible séparée de son étiquette, l’étiquette, et la protéase. Pour faciliter la suite de la purification, une astuce fréquente consiste à utiliser une construction de la protéase contenant la même étiquette que celle utilisée pour la protéine cible lors de la première étape. Ainsi, en injectant le mélange contenant la protéine cible, l’étiquette séparée et la protéase étiquetée, sur la même colonne d’affinité que précédemment, l’étiquette seule et la protéase étiquetée restent accrochées. Par contre, la protéine cible sort directement dans l’éluat puisqu’elle ne contient plus l’étiquette (figure 2.10).
53
Introduction à la biocristallographie
1
2
surnageant étiquette
colonne d’afnité
site de coupure
protéine cible
ow through 3
4
compétiteur étiquette site de coupure
protéine cible
étiquette site de coupure
protéine cible
élution Figure 2.9 Étapes de purification sur colonne d’affinité.
En procédant de cette façon, les impuretés retenues en même temps que la protéine cible lors du premier passage sur la colonne sont des protéines qui interagissent avec la colonne d’affinité, et sont éventuellement éluées en même temps que la protéine cible. Lors du deuxième passage sur la colonne d’affinité, ces impuretés seront à nouveau retenues. Comme la protéine n’a plus son étiquette, elle n’est plus retenue sur la colonne, ce qui va permettre de séparer les impuretés de la protéine cible. Après ce deuxième passage, la solution de protéine est pure à 90–95 %. Ainsi, avec seulement deux étapes de purification, l’échantillon obtenu peut-être très homogène. En plus de ces deux étapes de purification, des étapes supplémentaires appelées étapes de polissage peuvent être effectuées en exploitant d’autres propriétés de la molécule cible comme sa taille, sa masse, sa charge ionique, etc. Ensuite, il est essentiel de vérifier la qualité et l’intégrité de l’échantillon et de le concentrer jusqu’à des valeurs compatibles avec les expériences de cristallisation.
54
Chapitre 2. Préparation des échantillons
Figure 2.10 (a) : Mélange en solution après séparation de la protéine cible et de son étiquette à l’aide d’une protéase spécifique ; (b) : Séparation de la protéine cible sur une colonne d’affinité spécifique de l’étiquette.
55
Vidéos associées 2.1 Les prérequis : connaître son échantillon https://youtu.be/rTYO0hsUGiU
2.2 Clonage, production, purification des échantillons https://youtu.be/RhBaWJjxFlw
2.3 Visite du laboratoire : la préparation des échantillons https://youtu.be/ZA-nCSOloXE
Chapitre 3 Caractéristiques et propriétés des cristaux
Qu’il soit constitué de petites molécules comme des atomes de chlore et de sodium qui forment les cristaux de sel, d’eau qui forme les flocons de neige, ou de macromolécules comme des protéines, des acides nucléiques, ou leurs assemblages, un cristal est un solide. Les constituants du cristal sont toujours assemblés de manière régulière, ce qui leur confère des propriétés essentielles pour la diffraction.
3.1 L’assemblage cristallin Pour comprendre les propriétés d’assemblage d’un cristal, commençons par jouer au jeu du papier peint. L’exemple de la figure 3.1 représente un papier peint formé de motifs répétés. L’unité minimale, la maille, peut être représentée en traçant un carré ou un rectangle. La répétition de cette unité minimale dans les deux directions de la figure dessine un réseau qui permet de décrire entièrement le papier peint. Nous constatons d’une part que plusieurs positions d’un même carré vont permettre de décrire le papier peint (carré bleu ou carré vert), et d’autre part que l’unité minimale peut être contenue dans un quadrilatère de forme différente (carré bleu ou vert par rapport au rectangle rouge). L’unité minimale contient toujours le même motif, à nous de choisir comment la dessiner pour décrire le papier peint.
57
Introduction à la biocristallographie
Figure 3.1 Exemples d’unités minimales permettant de décrire l’intégralité d’un dessin répétitif par simple translation (adapté à partir de https://commons. wikimedia.org/wiki/File:Un_motif_de_papier-peint_(Palais_An_Dinh,_ Hu%C3%A9)_(4393490610).jpg).
De façon analogue, un cristal tridimensionnel peut être décrit comme la répétition régulière dans les 3 directions d’une boîte, la maille du cristal, caractérisée par ses paramètres de maille, et ses opérations de symétrie, ou symétries. Une opération de symétrie est un déplacement par rapport à un élément géométrique qui peut être un point, une droite ou un plan. Quand on applique une opération de symétrie à un objet, on obtient une image de cet objet qui est indiscernable de l’objet d’origine, on dit qu’il est invariant. Les symétries sont donc des transformations qui laissent le cristal invariant. Les paramètres de maille décrivent la longueur des trois côtés a, b, c et les angles alpha, bêta, gamma qui les relient. La maille contient souvent plusieurs fois le même groupement d’atomes. À l’intérieur de la maille, on peut souvent passer d’un groupement d’atomes à un autre en appliquant des opérations de symétrie de base, comme des rotations et des translations. L’unité asymétrique est le groupement d’atomes minimal qui permet de recréer l’ensemble du cristal par les opérations de symétrie du cristal. Chaque unité asymétrique peut contenir une ou plusieurs molécules, identiques ou non (figure 3.2). Alors que la taille moyenne d’un cristal de protéine se situe autour de 100 µm de côté, la longueur typique de sa maille est d’environ 100 Å, soit 10 nm. Ce qui fait 10 000 mailles par côté d’un cristal, soit 1012 ou 1000 milliards de mailles dans un cristal de forme cubique. Ainsi, l’intensité d’une tache de Bragg est proportionnelle au carré du nombre de mailles (voir § 4.2). De plus, les interférences produites par le réseau cristallin sont un formidable outil de concentration du signal diffusé par ces molécules dans des directions particulières.
58
Chapitre 3. Caractéristiques et propriétés des cristaux
unité asymétrique
b symétrie
α
c
β
γ
maille
a cristal
Figure 3.2 L’assemblage cristallin depuis l’unité asymétrique jusqu’au cristal.
3.2 Les symétries du cristal Les opérations de symétrie d’un cristal sont des rotations autour d’un axe, des réflexions par rapport à un plan, des translations ou des combinaisons des trois. Elles sont référencées dans les tables internationales de cristallographie (voir référence dans le chapitre « Pour aller plus loin »). En biologie, les symétries observées sont limitées, avant tout, par la nature même des macromolécules biologiques. En effet, les macromolécules biologiques sont chirales. Ce qui signifie qu’elles ne sont pas superposables à leur image dans un miroir plan (figure 3.3). Les protéines sont lévogyres (c’est-à-dire qu’elles ont la propriété de faire tourner le plan de polarisation de la lumière polarisée vers la gauche d’un observateur qui reçoit la lumière), les sucres présents dans les acides nucléiques sont dextrogyres. Ainsi, pour une protéine ou un acide nucléique donné, on n’observe pas la molécule miroir : il n’y a pas de symétrie de réflexion en cristallographie biologique.
C𝛃𝛃 C𝛂𝛂 N
C=O
Figure 3.3 La chiralité d’un objet désigne sa propriété à ne pas être superposable à son image dans un miroir plan.
59
Introduction à la biocristallographie
Parmi les symétries observées en cristallographie biologique, citons les symétries de rotation autour d’un axe. Dans le cas d’une rotation d’ordre 2, on tourne de 180° autour de l’axe pour reproduire la molécule. Pour un axe d’ordre 3, les molécules sont réparties tous les 120°, ce qui correspond à 3 molécules en 360°. Il existe également des rotations d’ordre 4 ou d’ordre 6. Ces rotations peuvent s’accompagner d’une translation le long de l’axe de rotation. On parle alors de translation hélicoïdale ou d’axe vissé. Par exemple, on parle d’une symétrie 21 quand une rotation de 180° autour d’un axe 2 s’accompagne d’une translation sur une distance correspondant à la moitié de la hauteur a de la maille (figure 3.4). C’est un peu comme si on faisait un demi pas autour de l’axe d’une vis. De même, un axe 31 correspond à une rotation de 120° suivie d’une translation de a/3, et un axe 32 à une rotation de 120° suivie d’une translation de 2a/3. On peut également construire des axes vissés autour d’un axe d’ordre 4 ou d’ordre 6.
120°
90°
60°
180°
a/2
c
a b
180°
Figure 3.4 Axe de symétrie d’ordre 2, 3, 4 et 6 ; et axe vissé de type 21.
Ces opérations de symétrie peuvent se retrouver le long de chacun des axes a, b ou c. L’ensemble des opérations de symétrie d’un cristal donné forment ce que l’on appelle son groupe d’espace. Les groupes d’espaces sont également référencés dans les tables internationales de cristallographie (https://it.iucr.org/).
3.3 Les réseaux de Bravais Nous avons vu qu’un cristal est formé par la répétition de mailles dans les trois directions de l’espace. Pour décrire cette répétition, on utilise le concept de réseau, qui est un ensemble de points ordonnés régulièrement, appelés nœuds,
60
Chapitre 3. Caractéristiques et propriétés des cristaux
dont les positions sont données par l’expression : u a+v b+w c. Ici u, v et w sont des entiers et a, b et c sont les vecteurs formant la base de la maille, dont les normes (a, b, et c) et les angles qu’ils forment entre eux (α, β, et γ) sont les paramètres de maille, définis plus haut. Dans certains cas, il est possible de repérer des relations particulières entre les paramètres ou entre les angles α, β, γ de la maille. Par exemple, on peut avoir a = b, et α = β = γ = 90°. On montre qu’il existe un nombre limité de réseaux possibles : ce sont les 14 réseaux de Bravais (figure 3.5). Ces 14 réseaux de Bravais permettent de définir 7 systèmes cristallins, qui correspondent aux différentes symétries que peuvent avoir les réseaux. Ainsi, chaque système cristallin est caractérisé par des contraintes spécifiques sur les paramètres de maille. Dans le système cubique, par exemple, tous les paramètres sont égaux et les angles valent 90°.
Figure 3.5 Les 14 réseaux de Bravais et leurs caractéristiques géométriques.
La figure 3.6 représente les différents types de mailles possibles, où les points noirs représentent les nœuds du réseau. Les mailles ne contenant qu’un seul nœud sont dites primitive et notées P. Afin de simplifier la description du réseau, on peut être amené à utiliser des mailles dites multiples contenant plusieurs nœuds par maille. Conventionnellement ces mailles sont : – centrées, I, si le nœud supplémentaire est au centre de la maille ; – à faces centrées, F, si les nœuds supplémentaires sont aux centres des faces ; – à deux faces centrées, A, B ou C, si les nœuds supplémentaires sont aux centres des faces (b,c), (a,c) ou (a,b), respectivement.
61
Introduction à la biocristallographie
α b
c α β a
γ
b
α
c
a
γ
α β
γ
α β
a
b
b
β a
γ
c α β γ
c
Faces centrées F
Centrée I
Primitive P
b
c
a
b
c β γ
a
Deux faces centrées. A/B/C
Figure 3.6 Représentation des différents types de mailles possibles.
Dans la suite (chapitre 8), on caractérisera le contenu de la maille par sa densité électronique moyenne au point x a+y b+z c, ρ ( x y z ) . x, y et z sont les coordonnées fractionnaires du point c’est-à-dire comprises entre 0 et 1.
3.4 Le réseau réciproque Il est possible de dessiner des plans qui passent par les nœuds du réseau et sont appelés plans réticulaires. Ces plans jouent un rôle très important en cristallographie. Nous verrons plus loin que le phénomène de diffraction peut être compris comme une réflexion sur ces plans, c’est ce qui permet d’obtenir la relation de Bragg (§ 4.2). En cristallographie, nous appelons « famille de plans réticulaires », l’ensemble des plans réticulaires parallèles qui contiennent tous les nœuds du réseau. Pour caractériser un plan, on donne la direction qui lui est orthogonale. Par exemple, le plan réticulaire passant par l’origine du réseau et défini par les vecteurs a et b,
62
Chapitre 3. Caractéristiques et propriétés des cristaux
est caractérisé par le produit vectoriel a ∧ b (voir l’encadré sur les opérations vectorielles). Ceci peut être facilement généralisé de manière à définir un autre réseau, appelé réseau réciproque, dont les trois vecteurs de base sont1 : a* =
b∧c c∧a * a ∧b ; b* = ; c = V V V
où V est le volume de la maille donné par V = a . ( b ∧ c ). Par convention, les positions des nœuds de ce réseau se notent h a*+k b*+l c*, les trois indices entiers h, k, et l étant les indices de Miller. Les vecteurs du réseau réciproque s’expriment en Å–1. Ce réseau a des propriétés extrêmement utiles, par exemple : – Le vecteur h a*+k b*+l c*est orthogonal à une famille de plans, notée (hkl )2. – La distance entre deux plans successifs, notées d hkl , est donnée par l’inverse du module de h a*+k b*+l c*. Par exemple dans tous les types de cristaux, la famille de plans réticulaires définie par les vecteurs a et c est orthogonale au vecteur b* et notée (010) et d010 = 1 / b*, la famille de plans réticulaires définie par les vecteurs b et c est orthogonale au vecteur a* et notée (100) et d100 = 1 / a*, … (figure 3.7). b*
b c
d010=1/b* a a
d100=1/a*
c*
b* a*
Figure 3.7 Exemple de plans réticulaires et de grandeurs réciproques associées pour un réseau hexagonal. On notera que dans ce système b* n’est pas parallèle à b 3 et vaut b* = . 2b
1. On peut alternativement définir ces vecteurs en les multipliant par 2π, ce qui alourdit les formules donnant les distances interréticulaires. 2. Une petite difficulté : cette famille de plans ne passe que par les nœuds du réseau simplement si le vecteur h a*+k b*+l c* est le plus petit dans sa direction. Par exemple, (080) représente des plans 8 fois plus serrés que les plans réticulaires (010)…
63
Introduction à la biocristallographie
Les opérations vectorielles Les vecteurs sont des objets mathématiques qui servent à représenter des grandeurs physiques qui ont une direction et un sens comme une vitesse, un champ électrique ou les translations de base d’un réseau. Ils sont généralement notés en caractères gras : v, E, a, b et c, et leur norme, ou longueur, en caractère maigre : v, E, a, b et c. On peut faire des opérations simples sur les vecteurs. On peut les additionner comme ici : a+b=d b a
d
a
θ
b
Il est également intéressant d’introduire des opérations de multiplication. Le produit scalaire de deux vecteurs a et b faisant un angle θ, est un nombre – un scalaire – valant a . b = ab cos θ. Si le vecteur b est un vecteur unitaire, le produit scalaire a . b est la projection de a sur la direction de b. Si les deux vecteurs sont orthogonaux leur produit scalaire est nul. Le produit vectoriel de deux vecteurs a et b est un autre vecteur noté a ∧ b, orthogonal aux deux premiers, de norme |a ∧ b| = ab sin θ, tel que (a,b,a ∧ b) soit dans le sens direct. La norme de ce vecteur est égale à la surface du parallélogramme défini par a et b. Le produit vectoriel est utilisé dans la définition des vecteurs de base de l’espace réciproque. Ces deux produits permettent d’en définir un troisième : le produit mixte. Le produit mixte de trois vecteurs a, b et c est un scalaire valant (a,b,c) = a . (b ∧ c) = (a ∧ b) . c. Il est égal au volume du parallélépipède formé par ces trois vecteurs. C’est donc le volume de la maille de vecteurs de base a, b et c.
64
Chapitre 3. Caractéristiques et propriétés des cristaux
Vidéos associées 3. Les caractéristiques d’un cristal et la loi de Bragg https://youtu.be/YjKhznck8f0
65
Chapitre 4
Les rayons X et la diffraction
4.1 Pourquoi utiliser des rayons X :
l’interaction lumière / matière
Pour voir un objet, il faut l’éclairer avec de la lumière. Qu’il s’agisse de lumière naturelle comme celle du soleil ou de lumière artificielle. Mais selon la lumière utilisée, on ne voit pas la même chose. Les plus petits détails que l’on peut observer dépendent directement de la couleur de la lumière utilisée. Et la couleur de la lumière est caractérisée par sa fréquence ν, ou sa longueur d’onde dans le vide λ, qui sont reliées par la formule λ=c/ν (c : vitesse de propagation de l’onde). Dans le spectre de la lumière visible, les couleurs vont du violet au rouge sombre, ce sont les couleurs de l’arc-en-ciel. Les longueurs d’onde correspondantes sont de 400 nm pour le violet et de 700 nm pour le rouge sombre. Au-delà du rouge sombre se situe le rayonnement infra-rouge, avec des longueurs d’onde entre 1 µm et 1 cm puis les ondes radio, entre 1 m et 1 km. Vers les longueurs d’onde plus courtes se trouve la lumière ultraviolette jusqu’à 100 nm de longueur d’onde, les rayons X, entre 10 nm et 0,1 nm et les rayons gamma, avec des longueurs d’onde très courtes autour de 0,01 nm et moins. La longueur d’onde de la lumière avec laquelle un objet est éclairé détermine la distance la plus petite que l’on pourra observer : cette distance minimale est égale à environ la moitié de la longueur d’onde (voir encadré sur la limite de résolution et longueur d’onde de la lumière). Ainsi, plus les objets à observer sont petits, plus la longueur d’onde de la lumière utilisée doit être courte (figure 4.1).
67
Introduction à la biocristallographie
1 cm
1m
u Ois ea
urm
i
1 mm
Fo
Ch
ev eu
100 μm
es llul Ce
ies cté r
nd
10 μm
Mi
toc ho
1 μm
Ba
rie
100 nm
s
10 nm
Vir u
M mo acro léc ule
P mo etite léc ule
No y l'at au d om e e
0.01 nm 0.1 nm 1 nm
Figure 4.1 La taille des objets observables dépend de la longueur d’onde de la lumière utilisée (fourmi : https://commons.wikimedia.org/wiki/File:Formica_high_res. jpg ; cellules : https://commons.wikimedia.org/wiki/File:Epithelioid_cells_and_ macrophages_in_cell_culture.jpg ; bactéries : https://commons.wikimedia.org/ wiki/File:Dark_field_microscopy_revealing_Shigella_dysenteriae_bacteria.jpg ; virus : https://commons.wikimedia.org/w/index.php?curid=1097459.
4.1.1
Le choix des rayons X
Qu’il s’agisse d’une petite molécule ou d’une macromolécule biologique, les distances associées aux liaisons chimiques sont de l’ordre de 0,1 à 0,18 nm, ce qui correspond à 1 à 1,8 Å dans l’unité habituelle des cristallographes (figure 4.2).
Figure 4.2 Représentation d’une molécule organique et des distances interatomiques. Les atomes sont représentés en vert pour le carbone, bleu pour l’azote, rouge pour l’oxygène. Le modèle de représentation est celui utilisé de façon standard en cristallographie, dans lequel les hydrogènes ne sont pas représentés.
68
Chapitre 4. Les rayons X et la diffraction
Par conséquent, la longueur d’onde de la lumière utilisée pour observer la structure d’une molécule à l’échelle atomique se situe autour de 0,1 nm, soit 1 Å. Cette lumière correspond aux rayons X. Cependant, notre œil est incapable de voir les rayons X, et donc de voir directement un objet éclairé par des rayons X. Il faut utiliser des caméras ou des détecteurs spécifiques pour enregistrer les images. Ces détecteurs sont recouverts d’un composé ou d’une émulsion sensible aux rayons X. En quelque sorte, ces détecteurs voient les photons X et nous transmettent l’information.
4.1.2
L’interaction des rayons X avec les molécules
Les rayons X peuvent interagir de différentes façons avec les atomes des molécules (voir encadré sur le processus d’interaction entre la lumière et les atomes). Ils peuvent interagir sans perte d’énergie avec les électrons des atomes et seront alors diffusés dans toutes les directions, il s’agit d’une diffusion élastique. L’intensité du faisceau de rayons X après diffusion dépend du nombre d’électrons de l’atome et de l’angle de diffusion. Pour rendre compte de cette diffusion, on introduit un facteur de diffusion f pour chaque atome de la classification périodique (voir encadré sur le facteur de diffusion atomique). Considérons maintenant ce qu’il se passe avec deux atomes. Chaque atome reçoit le même faisceau de rayons X et peut le diffuser, mais l’amplitude de l’onde varie selon les directions. En effet, l’onde diffusée est la superposition de celles venant des deux sources, c’est-à-dire des deux atomes, ce qui donne lieu au phénomène d’interférence. Dans certaines directions l’interférence mène à une amplitude maximale, il s’agit d’une interférence constructive (figure 4.3a). Dans d’autres directions, l’interférence mène à un signal nul, il s’agit alors d’une interférence destructive (figure 4.3b). Pour comprendre de façon simplifiée comment se produisent les interférences constructives ou destructives, observons ce qu’il se passe pour chaque atome. Chaque atome reçoit le même faisceau et le diffuse. Dans certaines directions, les maxima des ondes diffusées par chaque atome se superposent, les ondes diffusées sont en phase. L’addition des ondes est maximale, l’interférence est constructive (figure 4.3c). Dans d’autres directions le maximum de l’amplitude de l’onde diffusée se superpose au minimum de l’autre, les ondes diffusées sont en opposition de phase, l’interférence est destructive et l’amplitude de l’onde résultante est nulle (figure 4.3d). Entre ces deux extrêmes, l’intensité varie entre un signal nul et un signal correspondant à la somme des deux amplitudes.
69
Introduction à la biocristallographie
Processus d’interaction lumière / atomes Lors d’une expérience de cristallographie, les photons de rayons X traversent le cristal et peuvent interagir de différentes manières avec les atomes qu’ils vont rencontrer. Pour illustrer ces différents types d’interaction, prenons l’exemple d’un cristal de protéine, d’une taille de quelques dizaines de μm, illuminé par des rayons X d’une longueur d’onde de 1 Å (soit une énergie de 12,4 keV). Dans ce cas, la très grande majorité des photons, environ 98%, traverse le cristal sans réaliser aucune interaction, comme si le cristal était transparent. Dans les 2 % des photons qui vont interagir, la répartition des interactions est la suivante : • 1,74 % sont absorbés par des atomes du cristal, et transfèrent leur énergie à un électron de l’atome. C’est l’effet photo-électrique qui a pour conséquence de générer des électrons de haute énergie qui sont la cause principale de la dégradation du cristal lors de l’expérience. • 0,14 % sont diffusés de façon inélastique, et transfèrent une petite partie de leur énergie aux atomes. C’est l’effet Compton, qui implique un changement de longueur d’onde des rayons X diffusés. Les photons ainsi diffusés participent au bruit de fond diffus sur le cliché de diffraction. • 0,12 % sont diffusés de manière élastique, sans changement de longueur d’onde, et ceux-là seulement peuvent donner lieu aux interférences à la base de la diffraction. Faisceau de rayons X entrant
Photo-électron primaire Electron Auger ou photons de fluorescence caractéristiques de l'atome
Effet photo-électrique Faisceau de rayons X entrant
Electron éjecté Longueur d’onde des rayons X plus élevée
Effet Compton Faisceau de rayons X entrant
Longueur d’onde inchangée des rayons X diffusés
Diffusion élastique
Cette répartition dépend à la fois de l’énergie des rayons X et de la composition chimique du cristal. La présence d’atomes plus lourds, et donc plus riches en électrons augmente la proportion d’absorption (effet photo-électrique). L’utilisation de rayons X de plus haute énergie diminue la probabilité d’interaction, sauf dans le cas où les cristaux contiennent des atomes lourds, c’est-à-dire riches en électrons, et que cette énergie est proche d’un des seuils d’absorption de ces atomes.
70
Chapitre 4. Les rayons X et la diffraction
Figure 4.3 Illustration du phénomène d’interférence constructive (a et c) ou destructive (b et d) dans le cas de deux atomes.
Les macromolécules sont constituées de centaines voire de milliers d’atomes. Le principe d’interférence s’applique de la même façon que pour deux atomes. Par conséquent, le signal résultant de l’interaction d’un faisceau de rayons X avec la molécule varie en fonction du nombre d’électrons des atomes qui composent la molécule, mais également en fonction du nombre et de la disposition des atomes les uns par rapport aux autres. C’est-à-dire en fonction de la structure tridimensionnelle de la macromolécule (figure 4.4).
Figure 4.4 Le signal de diffusion dépend de la structure tridimensionnelle de la macromolécule. L’image de diffusion a été calculée avec le logiciel nanoBragg de James Holton, à partir du fichier pdb de la macromolécule représentée à gauche de la figure (pdb : https://www.rcsb.org/structure/3UKG).
71
Introduction à la biocristallographie
Facteur de diffusion atomique On considère la diffusion d’une onde par un atome isolé. L’onde incidente a un vecteur d’onde ki (k = 2π / λ ) et l’onde diffusée un vecteur d’onde kd (voir figure (a)). Le processus est caractérisé par le vecteur de diffusion q = kd − ki . Le facteur de diffusion atomique f (q ) donne l’amplitude de diffusion élastique pour une onde incidente d’amplitude unité. On montre qu’il est égal à la transformée de Fourier de la densité électronique ρ (r ) de l’atome : f (q ) = ∫ ρ (r ) e 2iπ q ⋅r dr Bien que ce résultat ne s’obtienne rigoureusement qu’à partir de la mécanique quantique, une interprétation classique permet d’en saisir le sens physique. Les charges ρ (r ) dr présentes dans chaque élément de volume dr du nuage électronique vont se mettre à vibrer sous l’action du champ électrique de l’onde incidente (voir figure (a)).
(a) : schéma de diffusion par un atome ; (b) : facteurs de diffusion atomique de l’oxygène (bleu), du chlore (vert), de l’anion Cl− (magenta) et du cation K+ (rouge) (https://fr.wikipedia.org/wiki/Facteur_de_diffusion_atomique#/media/ Fichier:Cromer-Mann_structure_factors.svg). Comme de petites antennes, ces charges élémentaires vont réémettre des ondelettes dans toutes les directions, qui vont s’ajouter et interférer, pour donner une onde dont l’amplitude dépend du facteur de diffusion f (q ) et donc de l’angle de difsinθ fusion 2θ (le vecteur de diffusion q dépend de θ par la formule q = 4π ). Le λ facteur de diffusion est donc un facteur de forme atomique, qui a l’allure d’une courbe en cloche (voir figure (b)) pour tous les atomes. Sa valeur à l’origine est égale au nombre d’électrons de l’atome, ce qui permet de comprendre pourquoi les éléments légers diffusent peu, et pourquoi deux éléments voisins ont des facteurs de forme très proches, ce qui les rend difficiles à distinguer (voir courbes verte, rouge et magenta).
72
Chapitre 4. Les rayons X et la diffraction
4.1.3
L’interaction des rayons X avec un réseau cristallin
Considérons maintenant un grand nombre d’atomes identiques et régulièrement disposés dans un réseau ordonné. Lorsqu’on envoie un faisceau de rayons X sur ce réseau d’atomes identiques, des centaines de milliers d’ondes interfèrent les unes avec les autres. Comme les atomes sont espacés régulièrement, il se produit le même phénomène qu’avec deux atomes, répété autant de fois qu’il y a d’atomes dans le réseau. Ainsi, dans certaines directions les ondes diffusées se superposent, elles sont en phase. Il se produit une interférence constructive, les amplitudes s’additionnent et l’intensité résultante est égale à l’amplitude au carré. Au contraire, dès que nous nous écartons de ces directions particulières les interférences ne sont plus constructives, et l’intensité diffusée devient négligeable. Par conséquent, l’image observée sur le détecteur permet de reconstruire un réseau régulier de points correspondant aux interférences constructives, qu’on appelle des taches de Bragg, et qui forment ce qu’on appelle le réseau réciproque (figure 4.5, voir § 3.4).
Figure 4.5 Les interférences constructives d’un réseau forment un réseau appelé réseau réciproque.
4.2 La diffraction : la loi de Bragg Un cristal de macromolécules combine les propriétés de la macromolécule et du réseau cristallin. En envoyant un faisceau de rayons X sur un cristal de macromolécules, les interférences sont constructives seulement dans des directions caractéristiques qui dépendent du réseau cristallin. C’est ce qui forme le diagramme de diffraction, qui est une image du réseau réciproque, et qui peut être enregistré sur un détecteur sensible aux rayons X. Chaque image enregistrée est un cliché de diffraction, et chaque point sur le cliché est une tache de Bragg. Son intensité est proportionnelle au carré
73
Introduction à la biocristallographie
du nombre de molécules dans le cristal, et dépend de l’organisation des atomes de la molécule les uns par rapport aux autres, c’est-à-dire de sa structure tridimensionnelle. L’intensité de chaque tache de Bragg contient donc une partie de l’information sur l’ensemble de la structure de la macromolécule (figure 4.6).
Figure 4.6 Les molécules organisées en cristal forment un réseau régulier. Les interférences sont constructives dans des directions discrètes qui dépendent du réseau cristallin.
Du fait de l’organisation régulière des molécules dans le réseau cristallin, l’empilement des atomes dans le cristal forme des plans, appelés plans cristallins ou plans réticulaires. La diffraction provient de la réflexion du faisceau de rayons X sur ces plans cristallins, comme sur un miroir. Deux plans successifs sont séparés par une distance d. Le faisceau, de longueur d’onde l, vient frapper les plans avec un angle θ. Selon la distance d entre deux plans et selon l’angle d’incidence θ, il y aura une différence de chemin optique entre les ondes réfléchies par une même famille de plans cristallins. Cette différence est égale à 2 fois le sinus de l’angle θ multiplié par la distance d, car il faut tenir compte du chemin parcouru par l’onde sortante (figure 4.7). λ
θ
θ
d
plans ns cristallins i
2 x dsinθ
Figure 4.7 Condition d’interférence constructive lors de la diffraction d’un faisceau de lumière de longueur d’onde l, avec des plans cristallins séparés par une distance d, selon un angle d’incidence θ.
74
Chapitre 4. Les rayons X et la diffraction
La différence de chemin entre des ondes réfléchies par des plans séparés par une distance d, avec un angle d’incidence et de réflexion θ, est égale à 2 fois sin θ multiplié par la distance d, soit 2d sin θ. Des interférences constructives se produiront si cette différence 2d sin θ est égale à la longueur d’onde, ou à un multiple entier n de la longueur d’onde. Nous pouvons écrire cela sous la forme : 2d sin θ = n l(4.1)
Cette loi fondamentale est la loi de Bragg. S’il y a une formule à retenir c’est celleci, elle est utilisée en permanence à toutes les étapes de la résolution d’une structure cristallographique. Chaque paramètre est associé à un élément important de l’expérience : – l : les rayons X ; – d : le cristal ; – θ : la diffraction. En s’éloignant du centre d’un cliché de diffraction, l’angle θ correspondant au rayon diffracté augmente. L’angle 2θmax correspond à l’angle maximal auquel on observe des réflexions (figure 4.8). Pour une longueur d’onde donnée, cet angle 2θmax détermine la limite de résolution des données (voir encadré sur la limite de résolution et longueur d’onde).
2θ 2 θ
λ
θ
d
Détecteur de rayons X
Cristal de protéine
λ
2θmax
Rayons X Rayons diffractés
Figure 4.8 La loi de Bragg transposée à l’échelle d’un cristal.
75
Introduction à la biocristallographie
Limite de résolution et longueur d’onde Puisque la longueur d’onde λ est fixe, pour déterminer la limite de diffraction théorique d’un cristal, il suffit d’appliquer la loi de Bragg. Connaissant la distance entre le cristal et le détecteur et la distance entre le centre du faisceau et les taches les plus éloignées du centre sur le cliché de diffraction, on peut calculer l’angle θmax. La distance dmin pourra être calculée ainsi : 2dmin sin θmax = λ Donc : dmin = l / 2sin θmax La distance dmin correspond à la plus petite distance que l’on sera capable de percevoir grâce aux réflexions situées au plus grand angle 2θmax, elle représente les plus petits détails que nous pourrons observer avec ces données de diffraction. L’angle 2θmax détermine donc la résolution maximale du diagramme de diffraction, en Å. Nous verrons plus tard quelles peuvent être les conséquences de la résolution maximale sur la limite d’interprétation de la structure tridimensionnelle de la macromolécule cristallisée. La géométrie de la diffraction d’un cristal peut être visualisée facilement grâce à une construction géométrique appelée sphère d’Ewald, qui est une interprétation tridimensionnelle de la loi de Bragg.
4.3 La diffusion anomale Nous avons vu que dans les conditions dites « normales », la diffusion dépend seulement de la répartition des électrons autour de l’atome par l’intermédiaire du facteur de diffusion f, qui est un nombre réel f0. Lorsque l’atome reçoit un faisceau lumineux, il le diffuse, mais il l’absorbe également (voir encadré sur le processus d’interaction lumière / atomes). En effet, comme les électrons sont répartis sur des orbitales atomiques, ils occupent des états d’énergie bien définis. Donc pour certaines énergies de photons, ils sont éjectés de l’atome et le photon est absorbé : c’est l’effet photoélectrique. Le processus de diffusion est également modifié à ces énergies (ou longueurs d’onde) : on observe un phénomène de résonance qui correspond à l’excitation de couches électroniques profondes.
76
Chapitre 4. Les rayons X et la diffraction
Le rayon R de la sphère est égal à l’inverse de la longueur d’onde des rayons X. Le cristal est au centre de la sphère et le réseau réciproque centré à l’intersection de la sphère et du faisceau incident. À chaque nœud du réseau réciproque correspond un vecteur perpendiculaire à une famille de plan réticulaire. Pour le nœud le plus proche de l’origine, les indices de Miller h, k et l sont premiers entre eux, et le module du vecteur correspondant est égal à l’inverse de la distance interplanaire. Cette construction permet de voir qu’il y a diffraction seulement quand un nœud du réseau réciproque intercepte la sphère d’Ewald. Dans ce cas, un rayon est diffracté du centre de la sphère (le cristal) dans la direction pointant vers le nœud du réseau réciproque qui intercepte la sphère d’Ewald. Dans ce qui précède, nous avons supposé que le cristal était parfaitement ordonné, toutes les mailles étant strictement identiques. En réalité, les cristaux sont toujours désordonnés et le contenu des mailles varie légèrement, soit à cause de l’agitation thermique, le désordre est alors dynamique, soit parce que les conformations des molécules varient d’une maille à l’autre. Dans les directions où il y a diffraction, ce désordre fait que les rayons diffusés par les molécules ne sont plus parfaitement en phase et l’intensité des taches de Bragg est diminuée. Cette diminution de l’amplitude diffu sinθ 2 sée est modélisée par un facteur exponentiel exp −B appelé facteur λ Debye-Waller, où B est une grandeur caractérisant le degré de désordre. Ainsi, plus le désordre est grand, plus l’intensité des taches à grands angles diminue. L’angle de diffraction maximum θ max diminue, et la limite de résolution également.
Cette résonance perturbe le phénomène de diffusion, c’est la diffusion anomale. Nous verrons plus tard (§ 7.1 et 11.2) que le phénomène de diffusion anomale peut être utilisé pour résoudre une structure, grâce à la possibilité d’accorder la longueur d’onde sur une ligne de lumière d’un synchrotron.
77
Introduction à la biocristallographie
Vidéos associées 3. Les caractéristiques d’un cristal et la loi de Bragg https://youtu.be/YjKhznck8f0
4. Interaction lumière / matière https://youtu.be/HiBrbKFsX4o
78
Chapitre 5 Cristalliser une macromolécule biologique
5.1 Principes généraux En partant d’une protéine en solution, la formation d’un cristal nécessite une dépense énergétique transitoire et prend du temps. Sauf exceptions, il est nécessaire de travailler avec une solution très pure et très concentrée. En effet, la concentration initiale doit être suffisante pour que les protéines puissent interagir facilement. Spontanément, les protéines interagissent au hasard, ce qui mène à la formation d’agrégats non spécifiques, et éventuellement à la précipitation de la protéine. Mais dans certaines conditions favorables, des interactions plus spécifiques se mettent en place pour former des agrégats ordonnés, qui peuvent évoluer vers ce qu’on appelle le germe cristallin, ou germe critique : c’est l’étape de nucléation. Lorsque la barrière énergétique associée à la formation du germe critique peut être franchie, l’étape de croissance cristalline commence jusqu’à la taille maximale du cristal (figure 5.1).
5.1.1
Propriétés d’une protéine en solution
Chaque protéine a une composition unique et donc des propriétés spécifiques. Pour obtenir un cristal solide ordonné homogène, les molécules doivent être identiques aussi bien sur le plan de la composition chimique, que des propriétés physicochimiques, et de la conformation. Donc, non seulement il est essentiel d’avoir une solution d’une grande pureté au sens chimique, mais aussi de réduire au maximum
79
Introduction à la biocristallographie
Germes critiques : Nucléation
Agrégats spéciques
Cristaux Croissance
Energie
Agrégats nonspéciques Protéine en solution
Temps Figure 5.1 Barrière énergétique associée aux différentes étapes menant à la formation de cristaux de macromolécules.
les régions flexibles qui nuisent à l’homogénéité conformationnelle de la macromolécule et empêchent la formation de contacts intermoléculaires stables. Toute la difficulté, pour une macromolécule donnée, consiste à trouver les conditions favorables qui permettent la formation d’un germe ordonné critique, puis la croissance cristalline. Pour cela, il est nécessaire de tester les nombreux paramètres qui affectent la solubilité de la protéine. Les protéines sont des polyélectrolytes dont la surface est couverte de charges et groupements polaires qui interagissent avec les molécules de solvant. C’est pourquoi le pH, la force ionique, la température, ou encore la constante diélectrique de la solution ont un effet sur leur solubilité (figure 5.2a). En particulier, le point isoélectrique de la protéine, ou pI, est le pH pour lequel la charge nette globale de la molécule est nulle, c’est-à-dire que les charges négatives et positives s’annulent. Le pI est important à connaître car il correspond au pH où la solubilité de la protéine est minimale. Pour améliorer l’homogénéité conformationnelle en solution, quand c’est possible, l’ajout de ligands ou partenaires dans la solution peut stabiliser une conformation donnée de la protéine et favoriser ainsi la nucléation. Si la protéine contient des boucles désordonnées et mobiles, il peut également s’avérer utile de concevoir des mutants où ces régions seraient supprimées ou bien de les couper à l’aide de protéases (figure 5.2b). Enfin, on peut être amené à cristalliser un domaine isolé d’une grande protéine. Cependant, en isolant un domaine, des zones hydrophobes peuvent être mises à jour à la surface de la protéine, ce qui affecte sa solubilité. La présence de détergents dans la solution cache les régions hydrophobes et améliore la solubilité de ces échantillons (figure 5.2c). Dans le cas des protéines membranaires
80
Chapitre 5. Cristalliser une macromolécule biologique
(voir encadré sur la cristallisation des protéines membranaires), l’utilisation de détergent sera incontournable, puisque l’interaction de la protéine avec la membrane se fait précisément par des régions hydrophobes. Connaissant ces propriétés, un schéma général du comportement de la protéine en solution peut être proposé.
Figure 5.2 Propriétés des protéines affectant leur solubilité : (a) : polyélectrolyte ; (b) : zone d’interaction avec un ligand et boucle désordonnée ; (c) : région hydrophobe et effet des détergents. Les molécules de solvant sont représentées en violet avec leur charge sous forme de signe + et -, les molécules de détergent sont représentées sous forme d’ovales bicolores, la partie jaune correspondant à la zone hydrophobe, la partie bleue ou rouge à la zone hydrophile chargée positivement ou négativement.
5.1.2
Schéma général du comportement de la protéine en solution
Pour cristalliser une protéine, il est nécessaire de l’amener au voisinage de son seuil de solubilité. Pour cela, le premier paramètre essentiel est la concentration en protéine qui doit être suffisamment élevée pour favoriser les interactions. Certains agents chimiques, que nous détaillerons plus loin, agissent sur les propriétés des protéines en solution. Nous les appellerons agents de cristallisation. Ainsi, nous pouvons tracer une courbe de solubilité de la protéine en fonction de la concentration en agent cristallisant (figure 5.3). La zone située au-dessus de la courbe de solubilité est la zone de sursaturation. Juste au-dessus de la courbe de solubilité se trouve une zone métastable dans laquelle la solution est déjà sursaturée en protéine mais reste limpide, la protéine ne précipite pas. Dans la zone de précipitation à proprement parler, les interactions non spécifiques dominent, la protéine précipite. La zone de nucléation se situe dans une région intermédiaire entre la zone métastable et la zone de précipitation. Au cours de sa croissance, le cristal adsorbe les protéines de la solution et la concentration en
81
Introduction à la biocristallographie
Cristallisation des protéines membranaires Les protéines membranaires sont des protéines associées à la membrane cellulaire. Selon la nature de cet assemblage, on les divise en deux grandes classes : « périphériques » et « intégrales ». Les protéines de membrane périphériques ne traversent pas la double couche lipidique de la membrane, elles sont maintenues en place par des interactions électrostatiques et hydrophobes et peuvent être dissociées par des variations de pH ou force ionique. Ces protéines peuvent être cristallisées comme des protéines solubles. Les protéines membranaires intégrales contiennent des motifs structuraux hydrophobes (hélices α ou feuillets β) qui leur permettent de traverser et s’ancrer à la membrane cellulaire. Du fait de la partie transmembranaire hydrophobe, pour dissocier et solubiliser ces protéines, on utilise des détergents. La cristallisation d’une protéine membranaire est un enjeu ambitieux et les cristaux que l’on obtient sont souvent très petits et difficiles à visualiser. Deux méthodes principales de cristallisation existent : – La cristallisation in surfo utilise des solutions micellaires constituées de protéine et de détergents. Les micelles de détergent recouvrent les zones hydrophobes de la protéine qui peut alors être cristallisée comme une protéine soluble. Les cristaux qui se forment ainsi impliquent des interactions polaires protéine-protéine et sont très fragiles à cause des larges canaux de solvant présents dans ce type d’empilement. – La cristallisation en phase cubique liquide (LCP) se base sur l’inclusion de la protéine dans une matrice lipidique constituée par 60 % de lipides et 40 % de protéines, suivie de l’addition d’un agent cristallisant. La protéine associée au détergent diffuse dans la double couche lipidique et la nucléation et croissance cristalline s’opèrent au fur et à mesure que le système atteint l’équilibre. La phase cubique liquide n’est pas facile à obtenir et n’est stable que dans certains intervalles de températures spécifiques. De plus à cause de l’extrême viscosité du LCP la mise en place des gouttes requiert l’utilisation de matériel spécifique et la manipulation demande un peu de pratique. Les gouttes de LCP peuvent être mises en place par diffusion en phase de vapeur ou batch mais la méthode plus répandue utilise un sandwich du copolymère d’oléfine cyclique (COC). Le COC offre de nombreux avantages car il permet de prévenir la déshydratation des cristaux, il est optiquement transparent et absorbe et diffuse très faiblement les rayons X. protéine diminue progressivement. Lorsque la concentration en protéine de la solution rejoint la limite de solubilité, la croissance cristalline s’arrête. Un équilibre s’établit entre l’incorporation de molécules dans le cristal et la dissolution du cristal (figure 5.3). Ce schéma est très général. Pour chaque nouvelle macromolécule à cristalliser, la nature et la concentration de l’agent qui permettra de la cristalliser doivent être déterminées.
82
Zone métastable
Zone de nucléation Croissance
Concentration en protéine
Chapitre 5. Cristalliser une macromolécule biologique
Zone de précipitation
Zone de solubilité
Concentration en agent de cristallisation Figure 5.3 Schéma général des conditions de nucléation et de croissance cristalline.
5.1.3
Agents cristallisants
D’autres paramètres que la concentration en agent de cristallisation agissent sur la solubilité de la protéine : – Les sels affectent la force ionique du milieu. Des sels différents, comme le sulfate de lithium ou le sulfate d’ammonium, mais qui ont la même charge nette, peuvent également avoir des propriétés d’interaction protéine / ion différentes, et affecter différemment le comportement de la protéine en solution. – Les solvants organiques, tels que les alcools ou les éthers, diminuent l’activité chimique de l’eau et réduisent les propriétés diélectriques du milieu. Ils affectent aussi la densité, la viscosité, ou encore la vitesse de diffusion dans la solution. – Les polymères induisent une déshydratation et réduisent les propriétés diélectriques du milieu. Ils affectent également la densité, la viscosité, la vitesse de diffusion dans la solution de cristallisation. Les polyéthylènes glycols (PEG) sont les principaux polymères utilisés. Leur taille varie entre 200 et 20 000 daltons. Cette liste de paramètres n’est pas exhaustive. Pour chaque échantillon, il faudra les faire varier un à un pour trouver éventuellement les conditions de cristallisation.
5.2 Approches, plateformes La complexité des mécanismes mis en jeu implique que la cristallisation d’une macromolécule est difficile à obtenir et à reproduire. Des cribles permettent de trouver des conditions idéales de formation du germe cristallin pour une molécule donnée. Puis,
83
Introduction à la biocristallographie
l’étape d’optimisation cherche à diminuer le nombre de cristaux de chaque expérience de façon à favoriser l’augmentation de leur taille. Dans ce but, les cristallographes ont développé un large panel de méthodes et d’approches empiriques. Ces méthodes évoluent continuellement, nous vous proposons ici une présentation des plus classiques.
5.2.1
Équipement nécessaire
L’équipement incontournable consiste en : – Un échantillon de protéines pur à plus de 95 % et très concentré, autour de 10 mg/ml. Puisque la force ionique est une variable utilisée pour essayer de cristalliser une macromolécule, avant d’initier une expérience de cristallisation, il est important de dialyser l’échantillon contre un tampon de faible force ionique. Pour supprimer d’éventuels agrégats, il faut également le filtrer ou le centrifuger. Enfin, selon les propriétés connues de la molécule, certains agents stabilisants doivent être incorporés à la solution. – Une salle à la température contrôlée dans laquelle effectuer les expériences et entreposer les boîtes de cristallisation. La température est en effet un des paramètres qui modifie la solubilité de la protéine. – Un microscope pour suivre l’apparition des cristaux. – Des composés chimiques d’un haut grade de pureté pour maximiser la reproductibilité des expériences. Pour explorer les paramètres évoqués dans le paragraphe précédent, les expériences sont effectuées avec des micro-volumes de façon à consommer le minimum d’échantillon.
5.2.2
Méthodes de cristallisation
Une première technique, celle de la dialyse, une technique bien connue des biochimistes, permet d’amener progressivement l’agent de cristallisation en contact avec l’échantillon sans faire varier la concentration de ce dernier dans la solution (figure 5.4). La solution de protéine et la solution de cristallisation sont séparées par une membrane semi-perméable. Les sels et autres agents de cristallisation diffusent progressivement vers le compartiment contenant la protéine. Le taux d’échange est contrôlé par la taille des pores de la membrane et le gradient de concentration. Pour s’adapter aux micro-volumes, cette méthode est souvent mise en place dans des boutons de dialyse, de volumes compris entre 5 et 50 µl. Cette approche n’est actuellement pas automatisée, elle est donc surtout utilisée dans les étapes d’optimisation de la cristallisation, c’est-à-dire pour affiner les conditions de cristallisation obtenues avec des cribles larges. Une autre approche consiste à mettre en contact l’échantillon et l’agent de cristallisation dès le début de l’expérience et à concentrer progressivement la solution. Pour cela, une technique fréquemment utilisée est la diffusion en phase vapeur (figure 5.4). Le système comporte un réservoir contenant entre 100 µl et 1 ml de solution de cristallisation. Sur une lamelle ou dans une cupule adaptée, on forme une micro-goutte
84
Chapitre 5. Cristalliser une macromolécule biologique
en déposant un mélange de solution de cristallisation et de solution de protéine. En formant ce mélange initial, les concentrations en protéine et en agent cristallisant sont diluées d’un facteur qui dépend des proportions volumétriques de chaque solution. La lamelle est ensuite retournée de façon à ce que la goutte soit suspendue au-dessus du réservoir. Le système est scellé de façon à être clos, ce qui autorise la mise en place d’un équilibre en phase vapeur entre la goutte et le réservoir. Comme le volume du réservoir est très grand devant celui de la goutte et qu’il est plus concentré en agent cristallisant, de la vapeur d’eau s’échappe lentement de la goutte vers le réservoir. Ainsi, la goutte se concentre progressivement jusqu’à ce que la concentration en agent cristallisant soit la même que dans le réservoir. Dans le même temps, la concentration en protéine augmente, et passe éventuellement dans l’état sursaturé favorable à la cristallisation, évoqué précédemment. Cette technique est la technique de goutte suspendue ou de goutte assise selon où se trouve la goutte contenant la protéine (figure 5.4). Par rapport à la technique de la goutte suspendue, la technique de la goutte assise est plus largement automatisée. Elle permet également d’ouvrir le système plus facilement, pour faire de l’ensemencement par exemple (voir plus bas). Dans les techniques de dialyse et de phase vapeur, le système évolue progressivement vers un état d’équilibre, qui permet de passer par la formation d’un germe cristallin quand les conditions sont favorables. Il peut également être intéressant de mélanger la solution protéique avec une solution de cristallisation, et de laisser reposer le système, sans variation de concentration. Par exemple, dans la technique du micro-batch, la micro-goutte de mélange Dialyse
Diffusion de vapeur
solution de cristallisation
solution de cristallisation + protéine
membrane de dialyse protéine
goutte suspendue: 1-10 μl
Méthode micro-batch
goutte assise: 0,1-100 μl
Diffusion liquide-liquide solution de cristallisation
huile solution de cristallisation + protéine
solution protéique
Figure 5.4 Quelques techniques répandues de cristallisation d’une macromolécule biologique.
85
Introduction à la biocristallographie
est placée soit dans une coupelle soit dans un capillaire, et recouverte d’huile pour éviter, contrôler ou limiter l’évaporation (figure 5.4). Cette technique, également automatisée, est complémentaire des approches de diffusion en phase vapeur. Enfin, une diffusion directe à travers une interface peut être induite par une approche de diffusion liquide-liquide, en superposant la solution de cristallisation et la solution de protéine dans un capillaire, par exemple (figure 5.4). Par cette technique, il s’établit rapidement un gradient continu de concentration en protéine dans un sens, en agent de cristallisation dans l’autre sens, qui produit une sursaturation locale. Dans certains cas, on travaille en gel au lieu de travailler en phase liquide. Ainsi, le gradient de concentration s’établit plus lentement et de façon continue tout le long du capillaire. Cette technique, peu robotisée pour le moment, peut être très puissante pour affiner les conditions de cristallisation. La diffusion en phase vapeur est actuellement la méthode plus utilisée pour effectuer un criblage initial. Elle permet de tester un grand nombre de conditions en utilisant le moins d’échantillon possible. C’est elle qui est utilisée davantage par les systèmes robotisés actuels, et c’est d’abord elle que l’on privilégie pour reproduire et optimiser les conditions. Les autres méthodes sont plutôt utiles dans les étapes d’optimisation ou dans les cas plus difficiles de cristallisation.
5.2.3
Approches de cristallisation
Avant d’effectuer un crible large, il est essentiel d’évaluer la concentration optimale de la protéine à cristalliser. Pour cela, un crible matriciel peut apporter des informations intéressantes : pour une concentration donnée en protéine, différents agents de cristallisation sont testés à des concentrations variables et avec différents pH. Ces essais préliminaires peuvent être effectués en utilisant très peu de conditions différentes, donc très peu de protéine. Si la protéine est trop concentrée, l’ensemble des conditions testées mène à des précipités amorphes, si elle n’est pas assez concentrée, les gouttes restent toutes limpides. Ce type d’expérience permet de vérifier si la concentration en protéine est adaptée aux cribles commerciaux et de l’ajuster si nécessaire. Une fois la concentration protéique ajustée, pour éviter d’avoir à tester des milliers voire des dizaines de milliers de conditions, nous utilisons des cribles statistiques. L’approche initiale, proposée par Charles Carter Junior en 1979, est basée sur le calcul d’un plan factoriel incomplet : connaissant les agents précipitants, les additifs, et les pH que l’on souhaite tester, toutes les associations possibles sont calculées, sous la forme d’une immense matrice, puis des associations de paramètres sont extraites au hasard, avec pour contrainte que deux paramètres ne peuvent être associés ensemble qu’une seule fois. En 1991, Jarmila Jancarik propose un échantillonnage matriciel du même type que celui de Charles Carter, mais volontairement biaisé en se basant sur les conditions de cristallisation les plus représentées dans la littérature. Actuellement, fondés sur cette approche plusieurs compagnies proposent des cribles commerciaux permettant de tester un grand nombre de conditions. Certaines entreprises commencent maintenant à utiliser les algorithmes de machine learning (apprentissage machine) pour améliorer les cribles de cristallisation et d’optimisation des conditions de cristallisation.
86
Chapitre 5. Cristalliser une macromolécule biologique
L’utilisation de robots permet de balayer un grand nombre de conditions en utilisant de très faibles quantités de protéines, typiquement 0,1 µl par expérience. Ainsi, les nombreux cribles commerciaux disponibles vont permettre de tester plusieurs milliers de conditions en consommant quelques centaines de microlitres de protéines. Par ailleurs, les robots permettent une fiabilité et une reproductibilité des expériences plus élevées que si l’on devait réaliser ces milliers de conditions à la main. L’étape suivante va consister en l’analyse des résultats. Le suivi d’une expérience de cristallisation, se fait par observation des gouttes de cristallisation, d’abord tous les jours puis toutes les semaines. Des scores sont attribués aux conditions selon les observations : gouttes claires, précipités diffus, précipités plus serrés ou gélatineux, séparations de phase, sphérulites, aiguilles où le cristal a poussé surtout dans une dimension, plaquettes où le cristal a poussé dans deux dimensions principalement ou de magnifiques cristaux avec 3 dimensions (figure 5.5).
Soluble
Séparation de phase
Aiguilles
Précipité diffus
Précipité cristallin
Plaquettes
Précipité serré/gélatineux
Sphérulites / oursins
Prismes
Figure 5.5 Exemples de gouttes de cristallisation illustrant des états caractéristiques utilisés dans l’évaluation des résultats.
5.2.4
Optimisation des conditions de cristallisation
On repère si un agent cristallisant, un additif et/ou un pH sont plus favorables à la cristallisation de la protéine. Si les premières expériences donnent des pistes de cristallisation mais qu’il est nécessaire d’améliorer les cristaux, il est possible d’affiner les conditions, en faisant varier les tailles et les proportions des gouttes par exemple, et en utilisant une approche alternative.
87
Introduction à la biocristallographie
Nous avons vu que la cristallisation implique deux étapes : la nucléation et la croissance. La recherche de conditions d’optimisation peut s’appliquer aussi à la phase de croissance. Par exemple, on peut observer des conditions qui fournissent une multitude de petits cristaux inadaptés pour une expérience de diffraction. À partir d’une solution pré-équilibrée à une concentration correspondant à la zone métastable, nous pouvons chercher des conditions différentes pour leur croissance, en effectuant des ensemencements (figure 5.6) : – Du macro-ensemencement, qui consiste en trois étapes : • L’aspiration du cristal ; • Le lavage ; • Le transfert dans une solution pré-équilibrée. Si les conditions de la goutte pré-équilibrée sont favorables, le cristal va croître. – Du micro-ensemencement. Il s’agit cette fois d’ensemencer une solution pré-équilibrée avec un ou des germe(s) cristallin(s). Deux approches peuvent être utilisées : • Le broyage ; • Le « streak-seeding », en piquant un cristal ou un agrégat cristallin sous la loupe binoculaire à l’aide, par exemple, d’une moustache de chat, puis en passant la moustache de chat dans une goutte pré-équilibrée. La structure en épi de blé de la moustache de chat permet d’accrocher des germes sur le cristal lorsqu’on le touche et de les déposer dans une seconde goutte. Dans ces deux cas, la solution de cristallisation peut être différente de la solution d’où proviennent les germes cristallins. Macroensemencement
Aspiration
Lavage par aspirations successives
Première approche : broyage
Broyage
Dilutions
Micro-ensemencement
Ensemencement
Transfert du cristal
Deuxième approche : streak seeding
Récupération Ensemencement
Figure 5.6 Techniques d’optimisation des cristaux par ensemencements.
88
Chapitre 5. Cristalliser une macromolécule biologique
Vidéos associées 5.1 Cristallisation : principes généraux https://youtu.be/CC7m2JM4yu8
5.2 Cristallisation : approches, plateformes https://youtu.be/dgPcErIBCEI
5.3 Visite du laboratoire : cristallisation https://youtu.be/VUxspwIdyXc
89
Chapitre 6 Voyage dans un synchrotron
6.1 Comment générer des rayons X ? Nous avons vu précédemment le pouvoir pénétrant des rayons X qui a permis de prendre une photo du squelette de la main de l’épouse de Wilhelm Röntgen (figure 6.1a). En 1912, Max Laue établit la nature ondulatoire des rayons X grâce à l’observation d’un phénomène de diffraction par un objet cristallin, et en conclut qu’il s’agit bien de lumière, c’est-à-dire d’une onde électromagnétique, avec une composante électrique et une composante magnétique (figure 6.1b).
Figure 6.1 (a) : cliché de la main de l’épouse de Wilhelm Röntgen (https://fr.wikipedia.org/wiki/ Wilhelm_Röntgen#/media/Fichier:First_medical_X-ray_by_Wilhelm_Röntgen_of_ his_wife_Anna_Bertha_Ludwig’s_hand_-_18951222.gif) ; (b) : représentation des composantes électrique et magnétique d’une onde électromagnétique.
91
Introduction à la biocristallographie
6.1.1
Premiers générateurs à rayons X
Pour produire des rayons X, on utilise à cette époque un tube de Coolidge (figure 6.2). Il s’agit d’une ampoule sous vide. À l’intérieur, une haute tension est appliquée entre un filament métallique chauffé (la cathode) et une pièce métallique (l’anode). Les électrons sont accélérés et projetés sur l’anode. En conséquence, les rayons X sont produits à partir du point d’impact du faisceau d’électrons. Tube sous e vide
Anode (+)
Cathode (-) Ca
Tube sous vide e
Anode (+)
Cathode at (-)
électrons Rayons X R Haute tension (accélératrice)
Figure 6.2 Production de rayons X à l’aide d’un tube de Coolidge (adapté de https:// commons.wikimedia.org/wiki/File:Coolidge_xray_tube.jpg).
Lorsque les électrons arrivent sur l’anode, deux phénomènes peuvent se produire. Soit les électrons sont brusquement freinés et perdent leur énergie en émettant un rayonnement continu, le rayonnement de freinage (Bremsstrahlungs, figure 6.3), soit ils éjectent des électrons des couches profondes de l’atome. Cet atome, excité, va alors relaxer en émettant un photon de fluorescence, d’énergie bien définie, caractéristique des niveaux d’énergie électroniques de l’atome. Selon la nature des atomes de l’anode, le rayonnement X émis de cette manière ne sera pas le même, il n’aura pas la même longueur d’onde. Ainsi, chaque élément de la classification périodique est capable d’émettre un rayonnement caractéristique. Cependant, les éléments les plus utilisés pour un générateur à rayons X pour la cristallographie sont le cuivre, le molybdène, l’argent ou le cobalt. Leur longueur d’onde d’émission est de l’ordre de l’Ångström, 1,54 Å dans le cas du cuivre par exemple. Il s’agit donc de longueurs d’ondes compatibles avec l’analyse de la structure atomique. trajectoire déviée
électron envoyé
attraction de l’électron par le noyau
Figure 6.3 Émission du rayonnement X par brehmsstrahlung.
92
énergie émise sous forme de rayons X
Chapitre 6. Voyage dans un synchrotron
Sur la base de ce principe général, les instruments de production de rayons X ont profondément évolué depuis ce simple tube, afin d’améliorer leur performance. Pour mesurer la qualité d’un faisceau de rayons X, on se réfère souvent à sa brillance, qui est liée au nombre de photons par seconde et donc à l’intensité de la radiation, rapporté à la taille de la source qui le produit et à l’angle de divergence du faisceau émis. Plus un faisceau de rayons X est intense, de faible diamètre et de divergence faible, plus il est brillant. Un moyen d’améliorer la brillance a d’abord été d’utiliser une anode en métal lourd, et un vide plus poussé, puis une anode tournante pour limiter l’échauffement, ce qui a également permis d’augmenter encore la puissance des tubes.
6.1.2
Le rayonnement synchrotron
Le moyen le plus utilisé en cristallographie biologique pour produire des rayons X est l’utilisation d’un rayonnement synchrotron. Le synchrotron est un ensemble d’accélérateurs de particules dont le but est de fournir de la lumière (et non de faire des collisions, comme au CERN). Un canon à électrons injecte des électrons dans un premier accélérateur linéaire, le LINAC, puis dans un deuxième accélérateur, en forme d’anneau, appelé Booster. Dans le Booster, les électrons sont accélérés jusqu’à atteindre une vitesse proche de celle de la lumière, puis ils sont injectés dans un anneau de stockage, où ils continuent à tourner, dont le rôle est de maintenir l’énergie des électrons constante. Pour ce faire, l’anneau de stockage consiste en une succession d’éléments magnétiques (aimant de courbure, onduleur ou wiggler) et de cavités radio-fréquence qui redonnent aux électrons l’énergie qu’ils ont perdue en rayonnant. En effet, en passant dans les éléments magnétiques les électrons perdent un peu de leur énergie sous forme de rayonnement émis, lequel est récupéré dans un laboratoire, appelé ligne de lumière, construit tangentiellement à l’anneau de stockage (figure 6.4). Ces lignes de lumières peuvent avoir des configurations diverses selon le type d’expérience effectué. En effet, la lumière synchrotron est utilisée dans beaucoup de disciplines, comme la cristallographie, mais aussi la physique des solides, la chimie, la médecine ou les sciences du patrimoine. Synchrotron Canon n
Booster
Ligne de lumière
Cabane e optique Lignes de e lumière
Cabane d’expérience d Anneau de stockage
Salle de contrôle
Figure 6.4 Schéma général du synchrotron SOLEIL à gauche, et d’une ligne de lumière à droite (source : https://fr.wikipedia.org/wiki/SOLEIL, https://www.synchrotron-soleil.fr/fr/structure-dune-ligne-de-lumiere).
93
Introduction à la biocristallographie
Production d’électrons à haute énergie Comme nous l’avons vu dans le chapitre 4, l’interaction la plus probable entre des rayons X et un cristal de macromolécule est l’absorption qui induit une émission photoélectrique. Les électrons ainsi arrachés aux atomes ionisés (ionisation primaire) vont récupérer une grande partie de l’énergie initialement transportée par les photons X. Comparativement, la probabilité d’interaction d’un électron avec les atomes qui l’entourent est beaucoup plus élevée que celle d’un photon, car l’électron est une particule massive et chargée. Ces électrons vont donc à leur tour traverser le cristal sur quelques micromètres en provoquant de nombreuses nouvelles ionisations (secondaires) et excitations d’états électroniques, transférant petit à petit leur énergie en endommageant la structure chimique des molécules du cristal. Du fait des ionisations, les modifications chimiques peuvent être très variées comme des réductions de pont disulfure, des décarboxylations, la création de radicaux très réactifs et peuvent finalement aboutirent à la libération de sous-produits de réaction gazeux comme H2 ou CH4. Pour donner un ordre d’idée, l’absorption d’un seul photon à une énergie de 12,4 keV (longueur d’onde de 1 Å) va induire très rapidement une cascade d’événements, qui aboutiront très rapidement à plusieurs centaines d’altérations chimiques sur une distance caractéristique de 3 μm (figure sur la « Trajectoire d’ionisation »). Certaines ionisations produisent des zones colorées qui rendent visible le volume irradié, comme le montre la figure 6.5. Trajectoire d'ionisation
e
e-
e-
-
3 𝛍𝛍m
e- e-
e-
e-
e-
e-
e-
L’exposition des cristaux aux rayons X induit donc inévitablement leur dégradation. Lorsque la dose absorbée est modérée, seule la structure chimique locale sera affectée. Mais lorsque cette dose augmente, la déstabilisation des interactions intra et intermoléculaires finit par affecter l’édifice cristallin luimême. Cette perte d’ordre se manifeste alors par une diminution progressive, dépendante de la dose absorbée, de la résolution maximale de diffraction. Au niveau des lignes de lumière, des éléments optiques (monochromateur et miroirs), situés dans la cabane optique, permettent de sélectionner la ou les longueurs d’ondes d’intérêt, et de focaliser le faisceau de lumière. Les échantillons sont disposés dans la cabane d’expérience, dans un environnement approprié selon le type d’expérience effectuée. La longueur d’onde, la taille et l’intensité du faisceau de rayons X sont contrôlées à partir de la salle de contrôle, ainsi que les réglages de l’environnement de l’échantillon pour mener à bien l’expérience (figure 6.4). Il existe une quinzaine de centres de rayonnement synchrotron en Europe, dont les caractéristiques varient. En France, il en existe deux : l’ESRF (European Synchrotron Radiation Facility) à Grenoble et le synchrotron-SOLEIL, sur le plateau de Saclay au Sud de Paris.
94
Chapitre 6. Voyage dans un synchrotron
6.2 Le dommage d’irradiation et la congélation
des cristaux
6.2.1
Le phénomène de dommage d’irradiation
Lorsqu’un cristal est exposé à un faisceau de rayons X intense, il se détériore rapidement. C’est ce qu’on appelle le phénomène de dommage d’irradiation, qui peut parfois se traduire par l’apparition d’une trace colorée dans la région de passage du faisceau de rayons X (figure 6.5). Dommage d'irradiation
Cristal
Cristal
Exposition aux rayons X
Position du faisceau de rayons X
Position du faisceau de rayons X
Figure 6.5 Dommage d’irradiation observé après exposition d’un cristal sous un faisceau intense de rayons X.
Lorsqu’un cristal est exposé à un faisceau de rayons X, la majeure partie de ce faisceau le traverse sans interagir, et une fraction du faisceau peut interagir avec les électrons de différentes façons (voir encadré du chapitre 4 sur le Processus d’interaction lumière / atomes). L’interaction qui nous intéresse, qui est à l’origine de la diffraction, est liée au phénomène de diffusion. Mais, par contre, c’est le phénomène d’absorption qui peut avoir des effets néfastes pour nos expériences. L’absorption transmet une grande partie de l’énergie des rayons X aux molécules cristallisées, ou aux molécules d’eau présentes dans le cristal (voir encadré sur la production d’électrons de haute énergie). Par exemple, lorsque l’oxygène de l’eau absorbe un photon, la molécule s’ionise, un électron de haute énergie est éjecté et produit une cascade d’autres dissociations. Cette molécule d’eau peut alors se dissocier en hydrogène et hydroxyles sous forme de radicaux libres H• et OH•, qui sont des espèces chimiques très réactives. La formation de ces radicaux libres et leur propagation peuvent induire une dégradation rapide dans le cristal (figure 6.6).
+ H 2O
OH.
H.
Figure 6.6 Formation des radicaux libres OH• et H• après absorption d’un photon X.
95
Introduction à la biocristallographie
Plusieurs paramètres peuvent être déterminants dans ce phénomène : l’intensité et l’énergie du rayonnement, le type de solvant, le pH, ou encore la température. Un cristal de macromolécules biologiques contient en moyenne 50 % de macromolécule et 50 % de molécules d’eau. Cette grande quantité de solvant rend les cristaux de macromolécules d’autant plus sensibles aux effets de l’absorption à température ambiante, où le solvant est encore liquide.
6.2.2
La congélation rapide des cristaux (flash freezing)
Au cours de l’acquisition des données de diffraction, il est essentiel de limiter l’endommagement induit par les rayons X pour collecter un jeu de données complet sans trop détériorer la molécule que l’on cherche à observer. En abaissant fortement la température, l’incidence de l’endommagement est très significativement réduite, ce qui permet d’exploiter un cristal en utilisant une dose de rayonnement plus importante. Idéalement, il faudrait descendre à des températures très basses pour limiter la propagation de l’endommagement. Mais il est également essentiel de travailler à des températures compatibles avec les outils, le matériel et les matériaux des lignes de lumière du synchrotron. Le problème majeur associé à la congélation des cristaux vient du contenu en eau du cristal. En effet, si l’eau se transforme en glace pendant le processus de congélation, elle risque de dilater le réseau cristallin et détériorer son ordre. D’autre part, la présence de glace cristalline produirait elle-même une diffraction supplémentaire qui empêcherait la mesure de certaines taches de diffraction. Pour éviter cela, les cristaux sont plongés rapidement dans un gaz liquéfié à basse température. Ainsi, la glace cristalline n’a pas le temps de se former, on obtient une glace vitreuse (amorphe) dont la densité, et donc le volume, ne change pas. Un autre avantage de cette forme vitreuse de glace est qu’elle ne diffracte pas. Enfin, cette vitrification permet de consolider le réseau cristallin de la macromolécule, ce qui va le protéger des dommages d’irradiation. Le gaz liquéfié le plus couramment utilisé est l’azote, dont la température d’ébullition se situe à 77,4 K, soit -195,8 °C. L’éthane liquide permet de refroidir plus rapidement les cristaux, et il semble que dans certains cas, il abîme moins les cristaux. Cependant, son caractère combustible le rend plus délicat à manipuler. L’utilisation d’un flux d’azote gazeux refroidi à 100 K semble particulièrement bien adaptée, mais il n’est pas toujours disponible.
6.2.3
Procédé de congélation rapide des cristaux à l’azote liquide
L’azote est disposé dans un récipient adapté, résistant au froid et isolant thermique. De façon à limiter le risque de formation de glace dans le cristal, nous effectuons une « cryoprotection » du cristal. Une façon simple de faire consiste à préparer une solution identique à la solution de croissance des cristaux, mais complétée avec un agent
96
Chapitre 6. Voyage dans un synchrotron
cryoprotectant comme un poly-éthylène glycol de faible poids moléculaire (PEG200, PEG400), du glycérol ou un autre alcool, ou encore un sucre. Puisque les cristaux ont des tailles de l’ordre de quelques dizaines de micromètres, leur manipulation s’effectue sous la loupe binoculaire. De façon à limiter la quantité de solvant qui entoure le cristal et qui sera plus tard exposée aux rayons X, le cristal est prélevé à l’aide d’une boucle dont la taille est très proche de celui-ci. Cette petite boucle est fixée sur une base aimantée, qui permettra de maintenir le cristal sous le faisceau de rayons X. L’ensemble boucle / cristal / base aimantée est placé soit dans un petit récipient cylindrique, soit dans une cassette de stockage, qui sera elle-même disposée dans le robot passeur d’échantillons en vue des expériences d’acquisition des données de diffraction. Pour procéder à la congélation d’un cristal, nous effectuons les étapes suivantes (figure 6.7) : 1/ Nous préparons une goutte avec le mélange solution de cristallisation complétée en agent cryoprotectant que nous plaçons sous la loupe binoculaire, et effectuons la mise au point sous la loupe binoculaire ; 2/ Nous approchons de la boucle la goutte dans laquelle ; 3/ Nous « pêchons » le cristal ; 4/ À l’aide de la boucle, nous passons délicatement le cristal dans la solution cryoprotectrice pendant quelques secondes ; 5/ Nous récupérons aussitôt le cristal cryo protégé à l’aide de la même boucle ; 6/ Nous plongeons tout de suite la boucle portant le cristal dans la solution d’azote liquide dans laquelle se trouve le petit récipient cylindrique ou la cassette de stockage. Une fois le cristal congelé, le récipient qui le contient ou la cassette de stockage sont placés dans un container de transport spécifique pour les apporter jusqu’au synchrotron. Cet exemple montre une approche qui a le mérite d’être simple et rapide en première intention. 1
2
Mise au point 4
Passage du cristal dans la solution cryo-protectrice
3
Pêche du cristal 5
6
Récupération du cristal et plongeon dans l’azote liquide
Figure 6.7 Différentes étapes associées à la cryoprotection du cristal.
97
Introduction à la biocristallographie
6.3 Cabane expérimentale : l’environnement
du cristal
6.3.1
Exemple de la ligne PROXIMA-1
Pour comprendre ce qu’il se passe sur une ligne de lumière (figure 6.8), nous avons choisi de prendre l’exemple de la ligne de lumière PROXIMA-1 du synchrotron SOLEIL. La cabane expérimentale est le lieu où s’effectue l’acquisition des données. Puisque les rayons X utilisés sont très intenses, pour la sécurité des expérimentateurs cette cabane est fermée pendant toute l’acquisition des données, et l’ensemble des éléments peut être dirigé à distance depuis la salle de contrôle. Ainsi, les cassettes contenant les cristaux sont entreposées dans un récipient contenant de l’azote liquide, qui peut contenir entre 3 et 9 cassettes, c’est-à-dire plusieurs dizaines de cristaux. Chaque cristal est positionné sous le faisceau de rayons X à l’aide d’un robot, dont le bras mécanique permet de récupérer un cristal et de le positionner sur un instrument appelé goniomètre, qui permet de centrer et d’orienter le cristal sous le faisceau de rayons X. Pour maintenir le cristal à basse température, on envoie en continu un jet d’azote gazeux refroidi à 100 K. Détecteur à rayonss X
to Beam stop
Fl Fluorimètre
Arrivée azote gazeux C Cristal Goniomètre
Récipient i de stockage des cristaux
Robot de manipulation des cristaux
Rail Ra de déplacement du détecteur
Faisceau rayons ra X
Figure 6.8 Vue générale de l’environnement du cristal dans la cabane expérimentale de la ligne de lumière PROXIMA-1.
Lorsqu’on envoie un faisceau de rayons X sur un cristal, la majeure partie du faisceau traverse le cristal sans être déviée. Ce faisceau direct très intense doit être bloqué avec un puits en plomb, le « beam-stop », car il endommagerait le détecteur. Au-dessus du cristal, un fluorimètre permet de mesurer le signal de fluorescence
98
Chapitre 6. Voyage dans un synchrotron
dans le domaine des rayons X, ce qui apporte des informations sur la composition des cristaux. À l’opposé de l’arrivée du faisceau de rayons X se trouve le détecteur sur lequel les données de diffraction sont enregistrées. La distance entre le détecteur et le cristal a un effet direct sur l’angle 2θ maximum (voir encadré Limite de résolution et longueur d’onde, chapitre 4), et donc sur la résolution des données que nous pouvons enregistrer. Elle affecte aussi la distance de séparation des taches de diffraction. Pour chaque échantillon, cette distance est réglée en fonction des paramètres de maille du cristal et de son pouvoir de diffraction, c’est-à-dire la résolution jusqu’à laquelle le cristal diffracte les rayons X (figure 6.8). Le résultat final recherché est la structure tridimensionnelle de la macromolécule qui nous intéresse. Cela implique que nous devons collecter les données de diffraction dans les 3 dimensions. Pour cela, nous faisons tourner le cristal sur lui-même pendant la collecte et enregistrons en même temps une série d’images, correspondant chacune à une petite portion de la rotation. Chaque rayon diffracté vient frapper une couche sensible du détecteur. La somme des rayons diffractés dans une direction se traduit par une tache de diffraction. Chaque image de diffraction contient donc un ensemble de taches de diffraction. Un jeu de données de diffraction est constitué d’une succession d’images qui, mises bout à bout selon leur angle de collecte, permettent de reconstituer un réseau tridimensionnel, le réseau réciproque.
6.3.2
La salle de contrôle
Dans la salle de contrôle, 4 écrans permettent de suivre (figure 6.9) : – Les mouvements et le bon fonctionnement du robot de stockage et de passage des cristaux ; – L’ensemble de l’environnement du cristal ; – Le centrage des cristaux dans le faisceau de rayons X, et le contrôle de l’acquisition des données ; – L’observation des diagrammes de diffraction par les cristaux. Environnement échantillon Robot Observation diffraction Contrôle cristaux. acquisition des données
Figure 6.9 Contrôle de l’environnement de l’échantillon, du fonctionnement du robot, de visualisation des cristaux et de la diffraction.
99
Introduction à la biocristallographie
Une interface dédiée permet de contrôler le robot pour le placement d’un cristal sur le goniomètre. Après connexion à l’interface avec des identifiants associés au laboratoire, le cristal est choisi à partir des différentes positions dans la cassette de stockage indiquées sur la gauche de l’écran. Le robot transfère le cristal sélectionné sur le goniomètre. Lorsque le cristal est positionné, il faut alors le centrer de façon à ce qu’il reste baigné par le faisceau de rayons X lors de la rotation effectuée pour collecter un jeu de données complet (figure 6.10). Comme le faisceau de rayons X est très petit (de l’ordre de quelques dizaines de μm de diamètre), le cristal doit être centré autour d’un volume aussi petit.
Cristal
Centre du faisceau Figure 6.10 Visualisation du cristal positionné sur le goniomètre. Le panneau de commandes en haut et à gauche permet d’éclairer, agrandir la visualisation et centrer le cristal sur le faisceau.
Une fois le cristal centré, nous allons pouvoir observer ses propriétés de diffraction sous le faisceau de rayons X en l’exposant sous différentes orientations.
6.3.3
Les données de diffraction
C’est parce que dans un cristal l’empilement des molécules est régulier et de l’ordre du nm que le phénomène de diffraction peut se produire dans le domaine des rayons X. Chaque tache du cliché de diffraction correspond à un faisceau diffracté. Elle est caractérisée par : – Une position décrite par trois entiers : h, k et l, appelés indices de Miller ; – Une amplitude |F | ; – Une phase α. L’amplitude est proportionnelle à la racine carrée de l’intensité de la tache. Au cours d’une expérience de diffraction, on mesure les coordonnées des taches et leur intensité à partir des images de diffraction et on en déduit les amplitudes |F | et les
100
Chapitre 6. Voyage dans un synchrotron
indices hkl (voir § 7.2). Par contre, la phase n’est pas directement mesurable. Tout le problème mathématique de la cristallographie vient de ce qu’on appelle le problème des phases qu’il faut résoudre (figure 6.11).
Figure 6.11 Caractéristiques associées à chaque tache de diffraction.
101
Introduction à la biocristallographie
Vidéos associées 6.1 Comment générer des rayons X https://youtu.be/8SLr51Iblk8
6.2 La congélation des cristaux https://youtu.be/rWG2Rqx2BEc
6.3 L’environnement du cristal dans la cabane https://youtu.be/l69Ebuj0SaU
102
Chapitre 7 Acquisition, traitement et analyse des données de diffraction
7.1 La stratégie de collecte Théoriquement, pour qu’un jeu de données soit complet, il faudrait accumuler des images de diffraction sur 360°. Nous verrons un peu plus tard que ça n’est généralement pas nécessaire.
7.1.1
Caractérisation du cristal
Nous devons maintenant définir les paramètres d’une première acquisition de données, en particulier : – l’énergie (en électron-volt) à laquelle nous souhaitons collecter les données, ou la longueur d’onde (en Ångström), ce qui correspond à la même information puisque la relation entre la longueur d’onde et l’énergie de photon est : λ (Å) = 12,4 / E (keV) ; – la résolution maximale (en Ångström), soit la distance du détecteur par rapport au cristal (en millimètres), ce qui revient également à la même information et dépend du diamètre du détecteur (voir encadré sur la limite de résolution et la longueur d’onde dans le chapitre 4).
103
Introduction à la biocristallographie
Pour analyser ces caractéristiques, nous collectons généralement deux images tests à 90° l’une de l’autre, c’est-à-dire qu’on fait pivoter le cristal sur lui-même de 90°. À partir de ces images, nous travaillons dans l’espace des données de diffraction, l’espace réciproque (voir § 3.4). Les images tests apparaissent successivement dans la fenêtre de contrôle au fur et à mesure de la collecte. Si le niveau global d’intensité est variable d’une image à l’autre, cela peut venir de la morphologie du cristal, et de la quantité de liquide congelé autour du cristal. Cela peut également venir plus simplement d’un problème de centrage du cristal sur le faisceau. Dans ce dernier cas, il sera important de revenir sur le centrage pour le vérifier. La qualité de la diffraction peut également varier selon la région illuminée du cristal. Il peut donc être intéressant de tester plusieurs régions. À partir d’une seule image de diffraction, nous obtenons des informations qui conditionnent les paramètres d’acquisition des données (figure 7.1) : – La zone blanche au centre du cliché correspond à l’ombre du piège, puits ou beam-stop, qui bloque le faisceau de rayons X direct. – La résolution dépend de la longueur d’onde utilisée et de l’angle thêta maximum (voir encadré du chapitre 4 sur la limite de résolution et longueur d’onde). Puisque le diamètre du détecteur est fixe, l’angle thêta maximum varie avec la distance entre le détecteur et le cristal (voir figure 4.8). Donc la résolution au bord du détecteur dépend de cette distance. Les informations de longueur d’onde du faisceau et de distance cristal-détecteur sont fournies au logiciel, qui déduit la résolution et affiche ensuite la valeur le long des cercles indiqués autour du centre du cliché. Sur l’image de la figure 7.1, des taches de diffraction sont visibles jusqu’à environ 2,0 Å, ce qui correspond à la limite de résolution pour ce cristal. – Autour de 3,8 Å de résolution, il y a un anneau sombre de diffusion qui augmente le bruit de fond. Il s’agit du signal de diffusion de l’eau présente dans le cristal et la solution dans lequel il baigne. Pour réduire ce signal, nous cherchons à limiter le solvant autour du cristal en le plaçant sur une boucle de taille adaptée à celle du cristal. – La distance entre les taches de diffraction varie selon les directions. On observe l’espace réciproque, et on a une relation inverse entre l’espacement des taches et la taille de la maille (voir § 3.4). Donc, plus les taches sont rapprochées, plus la taille de la maille est grande dans la direction correspondante. On observe également qu’à proximité du centre du cliché de diffraction, l’intensité des spots est importante. Et au fur et à mesure qu’on s’éloigne du centre, l’amplitude du signal de diffraction diminue, jusqu’à disparaître complètement (voir encadré du chapitre 4 sur le Facteur de diffusion atomique). La disparition du signal définit la limite de résolution des données, c’est-à-dire la limite des plus petits détails que nous pouvons observer. La connaissance de la limite de résolution du cristal permet d’optimiser la distance entre le détecteur et le cristal. Autour de l’axe de rotation du cristal, les nœuds du réseau restent en condition de diffraction trop longtemps, et les réflexions ne sont pas exploitables, cette région délimite ce qu’on appelle la zone aveugle (figure 7.1).
104
Chapitre 7. Acquisition, traitement et analyse des données de diffraction
Figure 7.1 Informations contenues sur une image de diffraction.
Les opérations de symétrie qui laissent inchangées les figures de diffraction d’un cristal forment ce qu’on appelle le « groupe de Laue ». Ces symétries induisent des équivalences dans le réseau réciproque, ce qui réduit la quantité minimum de données nécessaires pour décrire l’ensemble du contenu de la maille. À partir de quelques images seulement, nous pouvons également calculer les paramètres de maille, à l’aide d’un logiciel, qui lit les images et repère la position des taches de diffraction par leur intensité. Le logiciel calcule la position relative des taches les unes par rapport aux autres ainsi qu’en fonction de la position du centre du faisceau. La connaissance de ces positions permet de proposer un réseau réciproque et de chercher ses symétries. Ceci lui permet de calculer les paramètres du réseau direct et sa maille primitive (figure 7.2). Et à partir des paramètres de la maille primitive, le logiciel ajoute des contraintes correspondant aux différents réseaux de Bravais compatibles avec la maille primitive. Pour chaque réseau, il calcule l’accord entre le réseau observé et le réseau calculé. Au-delà d’un certain seuil, les réseaux proposés sont considérés comme incompatibles avec la symétrie du cristal étudié. Par exemple, le tableau de la figure 7.2 montre, dans la première colonne les différents groupes de Bravais testés en abrégé, les valeurs des paramètres a, b, c et α, β, γ, et les pénalités associées aux différentes mailles possibles. Ces pénalités sont très faibles jusqu’à un certain niveau de contraintes de symétrie. Puis, un saut important de pénalité est observé, ce qui permet d’exclure les symétries d’ordre supérieur. Ce calcul initial de la maille du cristal permet de déterminer son orientation et donc l’orientation du cristal.
105
Introduction à la biocristallographie
Figure 7.2 (a) partie d’un diagramme de diffraction montrant des exemples de distances entre les taches de diffraction (flèches vertes) permettant de déterminer les paramètres de maille a, b, c, α, β, γ, et (b) le réseau de Bravais le plus probable.
L’objectif est d’acquérir rapidement un jeu de données complet afin de minimiser le temps d’exposition du cristal sous le faisceau. La stratégie de collecte consiste donc en : – L’optimisation de l’orientation initiale du cristal en fonction de la maille calculée ; – Le choix du nombre minimum d’images à collecter selon les symétries possibles pour le groupe de Bravais supposé.
7.1.2
Le signal anomal
Dans certains cas, en plus de la macromolécule qui nous intéresse, les cristaux contiennent un ou plusieurs atomes qui vont permettre de calculer les phases associées à chaque intensité diffractée. Certains de ces atomes, comme les séléno-méthionines dont nous avons parlé au chapitre 2, modulent l’intensité des taches de diffraction à des longueurs d’ondes spécifiques. C’est ce qu’on appelle le signal anomal, dont nous verrons l’importance en détail au chapitre 9. Le détecteur de fluorescence situé au-dessus du goniomètre (figure 6.8) permet de repérer la présence d’un diffuseur anomal dans le cristal. Pour cela, nous effectuons un balayage d’énergie en faisant varier pas à pas l’énergie (donc la longueur d’onde) du faisceau de rayons X autour du seuil d’absorption de l’élément qui nous intéresse. Dans le cas du zinc, par exemple, une brusque variation d’intensité du signal de fluorescence peut être observée entre 9,66 et 9,67 keV (figure 7.3). De façon à maximiser les différences d’intensité, nous enregistrons des données à la longueur d’onde correspondant : – Au pic de fluorescence (peak) ; – Au seuil d’absorption (edge) ; – A une longueur d’onde éloignée du pic (remote).
106
Chapitre 7. Acquisition, traitement et analyse des données de diffraction
140
Coups normalisés (x 103)
120
f = f0 + f’ + if"
f" maximal (pic de uorescence)
100 80
f’ minimal
60 40 20
𝛌𝛌 éloignée : f ≈ f0
0 9,62 9,63 9,64 9,65 9,66 9,67 9,68 9,69 9,7
Énergie (keV)
9,71
Figure 7.3 Spectre de fluorescence associé au zinc. Intensité du rayonnement de fluorescence en fonction de l’énergie des photons incidents, au voisinage du seuil d’absorption du Zn.
Si nous collectons un seul jeu de données à la longueur d’onde correspondant au pic de fluorescence, il s’agit de données SAD, pour Single Anomalous Dispersion. Si nous collectons des jeux de données à plusieurs longueurs d’ondes distinctes, il s’agit de données MAD, pour Multiple Anomalous Dispersion. Il faut entre 2 et 10 minutes pour collecter un jeu de données complet, selon le temps d’exposition et le nombre d’images nécessaires.
7.2 Le traitement des données de diffraction Au cours de l’acquisition des données, les images sont enregistrées grâce à un détecteur spécifique (voir encadré sur l’historique des détecteurs à rayons X). Ces images enregistrées pendant l’acquisition des données correspondent chacune à environ un dixième de degré de rotation du cristal. L’objectif du traitement des données est de passer des images de diffraction à un ensemble d’intensités répertoriées dans un fichier avec, pour chaque réflexion enregistrée, sa position sur l’image, c’est-à-dire ses indices de Miller h, k, l, son intensité et une estimation de l’erreur associée à la mesure (figure 7.4), qu’on appelle le sigma de l’intensité.
107
Introduction à la biocristallographie
Petit historique des détecteurs bidimensionnels En 1895, W. Röntgen découvrira les rayons X grâce à un écran fluorescent posé à quelques mètres de son tube. C’est le premier détecteur à rayons X ! Ceux-ci excitent des atomes qui se désexcitent en émettant une lumière de plus faible énergie. Malheureusement, aussitôt les rayons X éteints le signal de fluorescence disparaît aussi… Röntgen, toujours lui, utilisera alors un détecteur très simple, mais qui sera utilisé jusque dans les années 1980, le film argentique. Ces films contiennent des cristaux d’halogénures d’argent (par exemple Br-Ag+.) Un photon X ionise le Br et l’électron arraché va réduire quelques atomes d’argent qui, sous l’action d’un révélateur, deviendront de petits grains de quelques dizaines de microns, bien visibles. Les films sont sensibles et bien résolus spatialement (≈ 20 µm), mais ils saturent rapidement. Ils ne sont linéaires que sur deux ou trois ordres de grandeur en intensité : leur étendue dynamique est faible. À la fin des années 80, de nouveaux détecteurs appelés « plaques images photostimulables » (imaging plate) font leur apparition. Il s’agit de plaques en plastique flexibles recouvertes d’une poudre de microcristaux phosphorescents, typiquement du fluorobromure de baryum dopé à l’europium. Sous irradiation X, les ions europium cèdent un électron qui est piégé sur une lacune d’atomes de brome, formant ainsi un « centre coloré » de longue durée de vie. À la lecture, la plaque est balayée par un rayon laser, qui désexcite le centre qui émet un photon lumineux. L’efficacité de ce détecteur est bien meilleure que le film argentique, sa résolution moins bonne (100 µm), mais sa dynamique s’étend sur quatre ou cinq ordres de grandeur. Les plaques images remplacent rapidement les films… et seront vite remplacés par les détecteurs numériques, dans les années 1990. Les premiers détecteurs numériques sont fabriqués à partir de matériaux semiconducteurs, très souvent Si ou Ge. Ils sont tous composés d’une matrice bidimensionnelle de capteurs photosensibles, dont le rôle est de récupérer les électrons ou les trous, formés dans le semi-conducteur par absorption d’un photon. Pour les détecteurs CCD (charge-coupled device), la détection est le plus souvent indirecte : une couche de scintillateur convertit les photons X en photons visibles qui excitent le semi-conducteur. Ce type de détecteur est bien plus efficace que les plaques images, sa lecture est extrêmement rapide, ce qui va les rendre très populaires. Malgré d’autres essais, comme les chambres à fils inspirés des travaux de Georges Charpak, la révolution des détecteurs a lieu à la fin des années 90, avec l’apparition des détecteurs à « pixels hybrides », une retombée directe des détecteurs du CERN (organisation européenne pour la recherche nucléaire). Dans cette technologie, chaque pixel est un capteur, qui contient un amplificateur et un discriminateur. Contrairement aux détecteurs précédents, ils n’intègrent pas le signal mais comptent les photons. Aussi ils n’ont pas de bruit. Avec les progrès de la microélectronique, les pixels peuvent maintenant avoir une taille plus petite que 100 µm.
108
Chapitre 7. Acquisition, traitement et analyse des données de diffraction
Les différentes étapes du traitement des données incluent tout d’abord l’étape de détermination des paramètres de maille, ou indexation, que nous venons d’aborder. La connaissance des paramètres de mailles permet de déterminer l’orientation du cristal au moment de la collecte, et d’assigner des indices hkl à chaque tache de diffraction. Après affinement des paramètres de maille, les positions hkl de toutes les réflexions peuvent être prédites et comparées aux données enregistrées. Les logiciels qui permettent de traiter les données ont besoin de nombreuses informations, qui peuvent être définies dans un fichier texte ou dans l’entête des fichiers images. Les paramètres nécessaires à l’analyse des données concernent en particulier les paramètres physiques de la collecte, comme la longueur d’onde, la distance du détecteur au cristal, ainsi que les paramètres qui définissent le détecteur. L’analyse des images s’effectue par étapes successives (figure 7.4) : – La première étape consiste à évaluer le bruit de fond des images. Celui-ci provient de la diffusion continue des rayons X qui n’ont pas produit d’interférence constructive. À partir de quelques images de la collecte, le nombre de coups moyen dans chaque pixel est déterminé, ainsi que la variation moyenne (déviation standard) de ces valeurs pour des pixels proches. Ces valeurs permettent d’estimer le niveau du bruit de fond dans l’ensemble des images. Une fois soustrait le bruit de fond moyen environnant un groupe de pixel, ceci permet de distinguer le signal de diffraction pour les valeurs de pixel au-delà de N fois la déviation standard ; – La deuxième étape est la recherche des taches de diffraction. Pour réaliser l’indexation, il suffit en général de rechercher ces taches de diffraction sur deux séries d’images enregistrées avec un écart d’orientation du cristal de 90°. Un ensemble de pixels contigus ayant des valeurs de coup supérieures au bruit de fond moyen sera considéré comme une tache de diffraction. Au terme de cette étape, on doit avoir une liste de taches de diffraction potentielles avec pour chacune une intensité (somme des coups pour les pixels contigus) et une position (le centroïde pour X et Y sur l’image et pour l’angle de rotation du cristal) ; – La troisième étape est l’auto-indexation. Elle consiste à déterminer les types de réseaux de Bravais possibles et les paramètres de la maille. Cette étape a généralement été effectuée une première fois avant la collecte pour déterminer la stratégie de collecte (voir chapitre 6), mais le grand nombre d’images dont on dispose en fin de collecte augmente la fiabilité de détermination des paramètres de maille. Ces paramètres sont indispensables pour indexer l’ensemble des taches, c’est-à-dire attribuer à chaque réflexion les indices de Miller hkl. À ce stade, on définit les paramètres de maille du cristal, et les paramètres d’orientation du cristal. Par contre, concernant la symétrie et le groupe d’espace, on formule une hypothèse qui devra être vérifiée par la suite, il ne s’agit pas d’une détermination définitive. À partir de ces informations, le logiciel attribue une position hkl à chaque nouvelle tache détectée sur une image ; – La quatrième étape est l’intégration. Il s’agit d’estimer l’intensité de diffraction et le bruit de mesure associés à chaque tache de diffraction. Une tache de diffraction
109
Introduction à la biocristallographie
n’est pas un simple point, elle occupe un certain volume tridimensionnel. Comme on enregistre des oscillations fines pour chaque image, la plupart des taches de diffraction sont enregistrées sur plusieurs images successives. Pour obtenir l’intensité à une position hkl il est donc nécessaire de faire la somme de ces intensités. Et pour cela, il faut définir avec précision la forme moyenne d’une tache de diffraction. Nous appelons cela le profil tridimensionnel. L’intégration est l’étape la plus longue puisque le logiciel analyse une par une les images de l’ensemble du jeu de données, et somme les intensités des pixels mesurés autour des positions hkl attendues pour chaque tache de diffraction ; – La cinquième étape est la mise à l’échelle. Une fois sommées toutes les intensités sur l’ensemble des images, cette toute dernière étape consiste à appliquer des paramètres de corrections, pour prendre en compte des erreurs expérimentales et des paramètres associés à la configuration de l’expérience. Cette dernière étape de corrections va permettre d’une part d’estimer la qualité de la collecte, d’autre part de valider l’hypothèse de symétrie que l’on a choisie. Nous testons les différentes possibilités de symétrie pour une géométrie de maille donnée, et nous sélectionnons celle qui a le meilleur accord interne (voir plus bas) ; – La dernière étape revient sur le choix du groupe d’espace. A ce stade, nous disposons de l’ensemble des intensités qui dessinent le réseau réciproque du cristal, et nous avons attribué un réseau de Bravais. Nous avons fait une première hypothèse concernant le groupe d’espace sans tenir compte de la présence d’éventuels axes vissés (ou hélicoïdaux), il s’agit de ce qu’on appelle le groupe ponctuel. Pour compléter l’hypothèse du groupe d’espace, nous utilisons une propriété des axes vissés, à savoir qu’ils induisent des conditions de réflexion caractéristiques le long des axes du réseau réciproques. Par exemple, un axe 21 peut se repérer par des conditions de réflexion d’une réflexion sur deux. Ainsi, à partir d’un groupe ponctuel du type P222, des conditions de réflexion du type l = 2n le long de l’axe 00l sont caractéristiques du groupe d’espace P2221, alors que des conditions de réflexion du type h = 2n le long de l’axe h00 et k = 2n le long de l’axe 0k0 sont caractéristiques du groupe d’espace P21212. Notons cependant que certains groupes d’espace restent indistinguables à ce stade, ils sont énantiomorphes. Par exemple, dans le cas d’un groupe ponctuel P4, les 4 groupes d’espace P4, P41, P42 ou P43 peuvent être déclinés selon les caractéristiques éventuelles de l’axe hélicoïdal. Dans le groupe d’espace P4, il n’y a pas de condition de réflexion, dans le groupe P42 elles sont de l = 2n le long de l’axe 00l, et elles sont de l = 4n le long de l’axe 00l pour le groupe P41 comme pour le groupe P43. Ainsi, les groupes d’espace P41 et P43 sont énantiomorphes, ils ne pourront être distingués que lors de la résolution de la structure. À la fin du traitement des données, nous obtenons un fichier contenant les intensités des réflexions hkl, et des statistiques permettant d’évaluer leur qualité.
110
Chapitre 7. Acquisition, traitement et analyse des données de diffraction
Figure 7.4 Résumé des objectifs et étapes du traitement de données.
7.3 L’analyse des données de diffraction À la fin de l’intégration des données, nous disposons d’un ensemble de mesures d’intensités « brutes », chacune associée à des indices de Miller hkl. À ce stade, il est nécessaire d’évaluer plusieurs hypothèses de symétrie possibles. Pour choisir un modèle de symétrie qui explique le plus complètement les relations de symétries internes entre les mesures d’intensités, nous comparons les intensités entre elles, de façon à repérer des groupes de réflexions équivalentes les unes aux autres, et au fur et à mesure nous allons vérifier nos hypothèses à l’aide de critères statistiques.
7.3.1
La loi de Friedel
La loi de Friedel (que nous approfondirons au § 11.2) nous dit que : I (hkl ) = I (hkl ) La conséquence de cette loi est qu’il y a un centre d’inversion dans l’espace réciproque. Et donc, généralement nous avons besoin de collecter seulement 180°, c’est-à-dire la moitié de l’espace réciproque, pour avoir un jeu de données complet. La loi de Friedel est presque toujours respectée, sauf pour les cristaux non-centrosymétriques en présence d’un signal anomal (voir § 11.2).
111
Introduction à la biocristallographie
7.3.2
Le choix du groupe de Laue
À la fin de l’intégration des données, nous disposons d’un ensemble de mesures d’intensités « brutes », chacune associée à des indices de Miller hkl. À ce stade, il est nécessaire d’évaluer plusieurs hypothèses de symétrie possibles. Pour choisir un modèle de symétrie qui explique le plus complètement les relations de symétries internes entre les mesures d’intensités, nous comparons les intensités entre elles, de façon à repérer des groupes de réflexions équivalentes les unes aux autres, et au fur et à mesure nous allons vérifier nos hypothèses à l’aide de critères statistiques. Selon la loi de Friedel, nous savons déjà que les réflexions hkl sont équivalentes aux réflexions hkl , sauf au voisinage d’un seuil d’absorption où il se peut que cette règle ne soit pas satisfaite. Les symétries présentes dans le cristal induisent des équivalences supplémentaires entre groupes de réflexions. Ces ensembles d’équivalences sont classés selon des groupes appelés groupes de Laue.
7.3.3
Évaluation de la qualité des données
Les critères statistiques d’évaluation des données sont basés à la fois sur des mesures de différences moyennes (notées R…), et des coefficients de corrélation (abrégés par CC). Par convention, nous calculons ce que nous appelons un facteur d’accord interne, ou facteur R, défini par :
∑i R (%) = 100 ×
n
2
Fi − Fi
∑i
n
Fi
2
2
(7.1)
L’intensité de chaque réflexion hkl mesurée est comparée à la valeur moyenne de l’ensemble des réflexions se trouvant à la position hkl ou à une position équivalente, définie par la loi de Friedel et par les opérations de symétrie du groupe de Laue. Si le groupe de Laue est mal évalué, les réflexions ne seront pas équivalentes, donc l’écart entre les intensités et la moyenne des intensités sera élevée, et le facteur R sera également élevé. Typiquement, en cristallographie biologique, un facteur R de bonne qualité se situe en dessous de 10 % pour les réflexions les plus fortes (dans les premières lignes du tableau de statistique de la figure 7.5). L’utilisation de coefficients de corrélation se base également sur l’hypothèse de réflexions équivalentes. L’astuce réside ici dans une division des réflexions mesurées en deux groupes répartis de façon aléatoire. Dans chaque groupe, les réflexions équivalentes sont moyennées, puis la corrélation entre les intensités supposées équivalentes de ces deux groupes est calculée. C’est ce que nous appelons le CC(1/2), ou CCano(1/2) s’il s’agit d’analyser des différences anomales. Dans le fichier où se trouvent les statistiques associées au traitement des données, les informations sont classées par tranches de résolution, de façon à déterminer la limite d’exploitation des données traitées. Les informations que l’on retrouve incluent généralement (figure 7.5) : – Le nombre de réflexions mesurées (observed), soit le nombre total de réflexions collectées, sans tenir compte des positions équivalentes ;
112
Chapitre 7. Acquisition, traitement et analyse des données de diffraction
– Le nombre de réflexions uniques, c’est-à-dire le nombre de réflexions observées après avoir enlevé les réflexions équivalentes ; – Le nombre de réflexions possibles, c’est-à-dire le nombre maximum de réflexions à une résolution donnée, ce sont les réflexions uniques. Elles peuvent être calculées à partir des paramètres de maille et de la symétrie choisie ; – La complétude (completeness), qui se déduit directement du rapport entre le nombre de réflexions uniques mesurées et le nombre de réflexions possibles ; – La multiplicité, quelquefois appelée redondance, c’est-à-dire combien de fois en moyenne une réflexion a été mesurée ; – Le facteur R, qui peut avoir différentes variantes selon les réflexions utilisées dans le son calcul (observed, expected, R sym, R merge, …), augmente avec la résolution. Ceci s’explique par le fait que les intensités sont plus faibles à plus haute résolution, et donc plus difficiles à mesurer avec précision. Si l’on fait une erreur de choix de groupe de Laue, les valeurs de R seront élevées dès la basse résolution. Le facteur R-meas (pour mesurées) inclut un facteur de correction pour tenir compte de la multiplicité et ne pas sous-estimer les erreurs de mesure ; – Le rapport I/sigma, c’est-à-dire le rapport signal sur bruit. La déviation standard, ou sigma, est associée à chaque mesure. Elle estime le bruit associé à la mesure de chaque réflexion, en tenant compte du bruit de fond moyen autour des taches de diffraction, mesuré pendant l’intégration, puis en le corrigeant par l’écarttype des réflexions équivalentes dans une même tranche de résolution. La valeur moyenne du rapport I/sigma est importante dans l’évaluation des données. Typiquement, en l’absence de dégradation du cristal, plus il y a de réflexions équivalentes (donc plus de redondance), plus le I/sigma final doit augmenter, ce qui reflète une meilleure fiabilité des données ; – Le coefficient de corrélation CC(1/2) défini plus haut. L’astérisque permet de repérer les valeurs statistiquement significatives, car calculées à partir d’un nombre de réflexions suffisantes. RESOLUTION NUMBER OF REFLECTIONS COMPLETENESS R-FACTOR R-FACTOR COMPARED I/SIGMA R-meas CC(1/2)Anomal LIMIT OBSERVED UNIQUE POSSIBLE OF DATA observed expected Corr 4.94 12488 1703 1706 99.8% 3.0% 2.9% 12486 57.94 3.2% 99.9* -9 3.51 21931 3001 3001 100.0% 3.2% 3.1% 21930 53.99 3.4% 99.9* -4 2.87 28989 3873 3873 100.0% 4.6% 4.2% 28988 37.69 4.9% 99.9* -3 2.48 34331 4582 4582 100.0% 8.5% 8.0% 34330 21.13 9.1% 99.7* -1 2.22 38879 5190 5190 100.0% 13.3% 13.2% 38878 13.95 14.3% 99.3* -3 2.03 41924 5663 5664 100.0% 20.8% 20.9% 41923 9.04 22.3% 98.4* -1 1.88 45568 6220 6220 100.0% 37.1% 36.8% 45568 4.73 39.9% 95.2* -8 1.76 48922 6654 6653 100.0% 74.1% 80.0% 48922 2.15 79.7% 81.5* -6 1.66 48747 6997 7070 99.0% 130.4% 153.8% 48697 0.99 140.7% 53.9* -2 total 321780 43884 43959 99.8% 6.4% 6.3% 321722 15.44 6.9% 99.9* -4
NUMBER NUMBER NUMBER NUMBER NUMBER
OF OF OF OF OF
SigAno Nano 0.842 1548 0.855 2797 0.857 3598 0.848 4240 0.792 4761 0.787 5120 0.769 5596 0.698 5916 0.621 6117 0.766 39693
REFLECTIONS IN SELECTED SUBSET OF IMAGES 325027 REJECTED MISFITS 3201 SYSTEMATIC ABSENT REFLECTIONS 46 ACCEPTED OBSERVATIONS 321780 UNIQUE ACCEPTED REFLECTIONS 43884
Figure 7.5 Exemple de tableau de statistiques d’évaluation de la qualité d’un jeu de données de diffraction.
113
Introduction à la biocristallographie
L’ensemble de ces critères, I/sigma, CC(1/2), R,… permettent d’évaluer la qualité globale des données mesurées et de délimiter la résolution jusqu’à laquelle elles peuvent être exploitées. Les critères de délimitation ont évolué au cours du temps, et varient d’un cristallographe à l’autre. Actuellement, les critères admis sont de limiter la résolution maximale des données lorsque le rapport I/sigma devient inférieur à 1, et/ou que la valeur du CC(1/2) devient inférieure à 50 %. Le R est utilisé pour évaluer la qualité des enregistrements et le choix du groupe de Laue. Une fois les données mises à l’échelle, il reste à transformer les intensités I en amplitudes F. Ainsi, après conversion, un fichier sous la forme (h, k, l , I , sigI ) devient (h, k, l , F , sigF ) ; ou devient (h, k, l , F + , sigF + , F −, sigF − ) si un signal anomal est suspecté, de façon à séparer les paires de Friedel (d’intensité F +, pour une réflexion à la position hkl et F – pour une réflexion à la position -h -k -l). Une dernière colonne, appelée FreeR-flag, permet de marquer des réflexions de façon aléatoire. Ces réflexions sont utilisées pour calculer un facteur R un peu particulier lors de l’étape d’affinement du modèle, le R-free (voir § 13.1). La qualité des données conditionne ce que l’on peut en faire. Elle dépend du cristal lui-même, mais aussi de la rigueur avec laquelle les données de diffraction sont collectées et analysées. Cette étape est critique, car une erreur à ce stade se répercute sur la suite du travail, et peut freiner la détermination de la structure. Il est important de bien garder en mémoire que le choix du groupe d’espace, pendant la phase de traitement des données, est une hypothèse qui peut éventuellement être invalidée plus tard dans le processus de détermination ou d’affinement du modèle atomique. De la même façon, au moindre soupçon de la présence d’un signal anomal, il est prudent de considérer que la loi de Friedel n’est pas respectée, et d’utiliser un format de fichier permettant d’exploiter ce signal en séparant les F + des F –.
114
Chapitre 7. Acquisition, traitement et analyse des données de diffraction
Vidéos associées 7.1 Acquisition des données : la stratégie de collecte https://youtu.be/EUHxyiAMzXo
7.2 Le traitement des données de diffraction https://youtu.be/AnVEJ_oSq1I
7.3 L’analyse des données de diffraction https://youtu.be/jqFEnTkGbkE
7.4 Les approches du futur https://youtu.be/6CFbzAtTOKY
115
Chapitre 8
La transformée de Fourier
8.1 Introduction à la transformée de Fourier Un outil mathématique inventé au début du XIXe par Joseph Fourier permet aux cristallographes de déterminer les structures atomiques à partir des enregistrements de la diffraction. Nous avons vu qu’un jeu de données de diffraction est constitué de pics dont les positions dépendent du réseau cristallin et dont les intensités dépendent de la structure tridimensionnelle de la molécule cristallisée. Par ailleurs, le résultat expérimental après analyse des données de diffraction est une carte de densité électronique qui représente le nombre d’électrons par unité de volume en chaque point x, y, z de la maille cristalline. C’est dans cette carte que l’on construit le modèle tridimensionnel comprenant les coordonnées spatiales de chaque atome de la macromolécule étudiée. Les données de diffraction sont dans l’espace réciproque, chaque tache se situe à la position h a* + k b* + l c* (voir § 3.4). La carte de densité électronique se situe dans l’espace direct. Pour passer de l’espace réciproque à l’espace direct, ou pour passer de l’espace direct à l’espace réciproque, il existe une opération mathématique appelée transformée de Fourier, du nom du mathématicien qui l’a développé (figure 8.1). Au début du 19e siècle, Joseph Fourier a énoncé que toute fonction périodique aussi complexe soit-elle (comme la densité électronique d’un cristal) peut s’exprimer comme la somme de fonctions périodiques simples comme des sinus ou des cosinus (figure 8.2). Qu’est-ce que cela signifie, et en quoi est-ce que cela est utile en cristallographie ?
117
Introduction à la biocristallographie
Figure 8.1 Le passage de l’espace réciproque à l’espace direct par transformation de Fourier.
Figure 8.2 Fonction périodique dans le temps (a) ou dans l’espace (b).
8.1.1
La transformation de Fourier appliquée à la musique
Lorsqu’on écoute une note de musique, comme la note La, jouée par une flûte ou jouée par un violon, on reconnaît qu’il s’agit de la même note mais l’impression est très différente d’un instrument à l’autre. Dans le cas de la flûte, il s’agit d’un son pur, alors que dans le cas du violon, le son est plus complexe. Cela se voit si le son joué par la flûte ou par le violon est enregistré sur un oscilloscope. L’oscilloscope révèle l’onde associée au son. Dans chaque cas, il y a un motif répété, mais ce motif diffère selon l’instrument. Dans le cas de la flûte, il s’agit d’un motif répété simple, constitué d’une sinusoïde qui représente l’amplitude du son en fonction du temps. La fréquence de 440 Hz signifie que cette sinusoïde est répétée 440 fois par seconde. L’intervalle de temps séparant deux sinusoïdes successives identiques est la période, elle correspond à l’inverse de la fréquence, ici 1/440 Hz (figure 8.3).
118
Chapitre 8. La transformée de Fourier
Puisqu’il s’agit d’une sinusoïde simple, elle peut être décrite avec la fonction dépendant du temps t :
F (t ) = a cos (ν 2π t ) (8.1)
a est l’amplitude, à laquelle nous pouvons attribuer arbitrairement la valeur de 1 ;
ν est la fréquence : 440 Hz dans ce cas. Dans le cas du violon le motif est plus complexe. La fréquence globale de 440 Hz qui correspond à la note La est retrouvée. La courbe sinusoïdale simple représente ce qu’on appelle la fondamentale. Nous observons également que chaque signal répété contient 6 pics. Pour décrire le signal du violon, il est donc nécessaire d’ajouter au moins une seconde sinusoïde pour laquelle nous allons diviser la fondamentale en 6 de façon à avoir 6 pics au lieu d’un (figure 8.3). Cette fonction est appelée la sixième harmonique, elle s’écrit :
f 6 = a6cos (6ν 2π t ) (8.2)
Figure 8.3 Représentation de la courbe sinusoïdale associée à la note La jouée par une flûte (a), ou par un violon (b).
Est-il possible de représenter la courbe périodique correspondant au son du violon en additionnant une série de courbes sinusoïdales, de période 1, ½, 1/3, ¼, … ? Joseph Fourier nous répond précisément que oui, on peut le faire.
119
Introduction à la biocristallographie
8.1.2
La transformation de Fourier appliquée à un système cristallin
Une fonction périodique peut s’exprimer dans le temps, comme nous venons de le voir avec la musique. Dans ce cas, le signal s’exprime en fonction du temps, la période correspond à la durée associée à la répétition du signal (figure 8.2a). Une fonction périodique peut également s’exprimer dans l’espace. Dans ce cas, le signal est exprimé en fonction d’une grandeur spatiale, et une dimension de l’espace prend la place du temps. La période dans l’espace est la distance minimale de répétition (figure 8.2b). La fréquence, et la fréquence spatiale, est l’inverse de la période, dans le temps ou l’espace. C’est sous cette forme que nous utiliserons les fonctions périodiques pour appliquer la transformation de Fourier à un système cristallin. La taille d’un cristal se situe autour de 100 μm et celle d’une maille se situe autour de 100 Å, soit 10 nm. Par conséquent, il y a environ 10 000 répétitions de la maille et de son contenu le long d’un côté du cristal. Le contenu de chaque maille peut être représenté par sa densité électronique moyenne. Ainsi, dans une direction donnée la densité d’électrons dans le cristal sera représentée par une courbe périodique, dont la période correspond à la dimension de la maille (figure 8.4). maille période
densité électronique amplitude
Figure 8.4 Équivalence entre la répétition du contenu des mailles cristallines et une fonction périodique.
Décrire cette courbe périodique à l’aide d’une somme de sinusoïdes d’amplitudes différentes revient à appliquer un développement en série de Fourier aux répétitions d’une maille cristalline imaginaire (figure 8.5). La valeur moyenne de la densité d’électrons permet de tracer la droite correspondant à f0, d’amplitude a0 = 5 dans notre exemple. La première sinusoïde est celle dont la période correspond à celle de la maille, il s’agit de la fonction f1. Les courbes correspondant aux harmoniques successives sont additionnées successivement sous la courbe initiale à gauche de la figure. L’amplitude de chaque courbe est représentée par le diamètre des disques, complètement à droite de la figure. Nous constatons que la somme des harmoniques successives permet de décrire la courbe initiale. Pour reproduire exactement celle-ci, il faudrait une infinité de sinus. Nous pouvons en avoir une bonne approximation avec un nombre fini. Plus il y a d’harmoniques additionnées meilleure est la précision. Cela correspond à une augmentation de la résolution, qui permet de résoudre des détails de plus en plus fins. Les amplitudes représentées sur la droite de la figure constituent une donnée connue : elles sont directement reliées à l’intensité des taches de diffraction que l’on mesure (figure 8.5).
120
Chapitre 8. La transformée de Fourier
période f0
+ f1
0 1
f0
phase
amplitude
amplitude a0=5
f1
a1=6
+ f2
1/2
f2
a2=3
+ f3
1/3
f3
a3=3
+ f4
1/4
f4
a4=1
+ f5
1/5
f5
a5=1
+ f6
1/6
f6
a6=1
+ f7
1/7
f7
a7=0.5
+ f8
1/8
f8
a8=0.5
+ f9
1/9
f9
a9=0.5
Figure 8.5 Développement en série de Fourier du contenu en électrons d’une maille cristalline. Le diamètre des cercles représente l’amplitude des sinusoïdes.
Que se passe-t-il maintenant si nous appliquons un décalage, c’est-à-dire un déphasage, à la première sinusoïde par exemple ? En conservant toutes les autres sinusoïdes identiques, le résultat final est différent de celui attendu (figure 8.6).
f0
déphasage
a0=5
f1
a1=6
f2
a2=3
f3
a3=3
f4
a4=1
f5
a5=1
f6
a6=1
f7
a7=0.5
f8
a8=0.5
f9
a9=0.5
Figure 8.6 Effet de l’introduction d’un déphasage sur f1 (encadré en vert) au cours du développement en série de Fourier.
121
Introduction à la biocristallographie
Cela signifie que la position de la courbe, sa phase, est un paramètre majeur pour décrire le signal complet. Par conséquent, lorsqu’on connaît la période (ou la fréquence spatiale) associée à une onde, deux informations permettent de reconstruire le signal : l’amplitude et la phase associée à chaque sinusoïde (figure 8.7). phase
amplitude
Figure 8.7 Les deux informations permettant de reconstruire une onde : la phase et l’amplitude.
Chaque onde, décrite par une amplitude |F | et une phase a, peut également être représentée dans l’espace complexe. L’amplitude est représentée par un vecteur dont la longueur est le module de F, c’est-à-dire l’amplitude. La position du vecteur dépend de la phase alpha, elle-même comprise entre 0 et 2p (figure 8.8).
Figure 8.8 Représentation d’une onde sinusoïdale (a) dans l’espace complexe (b). re : axe réel, im : axe imaginaire.
Cela montre qu’une courbe périodique peut être décrite par une série d’ondes, qui seront représentées par une amplitude, proportionnelle ici au diamètre du point, et une phase, représentée par leur couleur (figure 8.9). Ces amplitudes et ces phases, qui correspondent au développement en série de Fourier de la courbe périodique, forment ce que l’on appelle un spectre de Fourier. Pour passer de la courbe périodique au spectre de Fourier, ou pour passer du spectre à la courbe, il existe une opération mathématique, qui est la transformée de Fourier. Dans cet exemple, nous travaillons avec une seule dimension. Un cristal ayant trois dimensions, nous avons une densité d’électron en chaque point x, y, z de la maille cristalline, et le spectre de Fourier devient un ensemble de taches de diffraction.
122
Chapitre 8. La transformée de Fourier
Densité électronique du cristal
Transformation de Fourier 0
1
2
Spectre de Fourier
3
4
5
amplitude
6
7
8
9
phase
Figure 8.9 Représentation schématique de la transformation de Fourier. Dans le spectre de Fourier, pour chaque cercle, le diamètre représente l’amplitude du pic, la couleur représente symboliquement la phase des ondes de la série.
8.2 La transformée de Fourier et le problème
de la phase
Comme nous l’avons vu dans le chapitre 1, au début du 20e siècle, Lawrence Bragg a décrit le phénomène de diffraction sous la forme de la fameuse loi qui porte son nom et qui lui a valu un petit désaccord avec son père. Sir William Henry Bragg comprend rapidement que son fils a raison, et surtout, il comprend que la diffraction des rayons X par un cristal peut être représentée par une transformée de Fourier (figure 8.10). C’est grâce à ce lien entre diffraction et transformation de Fourier que l’on peut exploiter le phénomène de diffraction pour comprendre l’organisation spatiale des molécules.
W. Lawrence Bragg Novembre 1912 : 𝟐𝟐𝟐𝟐sin𝜽𝜽 = 𝝀𝝀
W. Henry Bragg 1915 : Lien entre le phénomène de diffraction et la transformée de Fourier
Figure 8.10 Rôle des Bragg père et fils dans l’utilisation du phénomène de diffraction pour résoudre la structure tridimensionnelle d’une molécule.
123
Introduction à la biocristallographie
8.2.1
La transformée de Fourier
Lorsqu’un cristal diffracte un faisceau de rayons X, sa densité électronique r peut être décrite en chaque point x, y, z de la maille élémentaire comme la somme sur les coordonnées h, k, l des modules des facteurs de structures multipliés par l’exponentielle complexe de la phase associée à chaque facteur le tout rapporté au volume de la maille V :
ρ (xyz ) =
1 V
∑h∑k∑l F (hkl ) e iα (hkl )e −2π i (hx +ky +lz) (8.3)
V : volume de la maille ; F (hkl ) : amplitude de la réflexion hkl ; α (hkl ) : phase de la réflexion hkl. Dans cette expression mathématique de la transformée de Fourier, nous retrouvons les indices h, k, l des facteurs de structures, ainsi que les coordonnées x, y, z d’un point du cristal. En reprenant le développement en série de Fourier du paragraphe précédent dans un système à une dimension, la densité électronique s’exprime alors comme une somme mettant en relation x d’une part et h d’autre part :
ρ (x ) =
1 F (h) e iα (h)e −2π i hx (8.4) L ∑h
Dans cet exemple la densité ρ(x) est la somme des harmoniques allant de f0 à f9 (figure 8.5) dont chaque onde, ou chaque facteur de structure F (h), peut être décrit en fonction de son amplitude F (h) et de sa phase α (h) , rapportée à la longueur de la maille L. Dans un système à trois dimensions c’est la même chose, F (hkl ) est l’amplitude de la sinusoïde, α (hkl ) sa phase, et d (hkl ) sa période. Du fait des trois dimensions, le sinus varie dans la direction du vecteur h a*+k b*+l c*. Chaque facteur de structure illustre une onde, décrite par une amplitude F (hkl ) et une phase a. Pour représenter une telle onde, nous préférons travailler dans l’espace complexe (figure 8.8). Nous pouvons écrire :
F = F cos (α ) + i F sin (α ) (8.5)
La formule d’Euler : e iα = cos (α ) + i sin (α ) permet d’écrire cette fonction sous forme exponentielle :
F = F e iα (8.6)
Cette notation donne accès aux propriétés algébriques de la fonction exponentielle, qui sont utiles pour manipuler cette expression. En reprenant le développement en
124
Chapitre 8. La transformée de Fourier
harmoniques d’une onde, chaque harmonique f0 à f9 dépend de l’allure générale du motif bleu (figure 8.5), ce qui se traduit par :
F (h) = ∫ ρ (x ) e 2π i hx dV (8.7) V
Ces deux expressions, ρ (x ) (équation 8.4) et F (h) (équation 8.7), mettent en évidence une propriété essentielle de la Transformée de Fourier, à savoir que chaque point de la densité ρ (x ) est relié à la somme des harmoniques du développement en série de Fourier, et chaque harmonique est reliée à l’allure générale du motif bleu (figure 8.5) c’est-à-dire au contenu électronique total de la maille. Lors de l’acquisition d’un jeu de données de diffraction d’un cristal, les intensités diffractées I(hkl) sont enregistrées en trois dimensions. Chaque intensité diffractée résulte de la diffusion par l’ensemble des atomes contenus dans la maille. Chaque maille cristalline a un volume V, et en chaque point x, y, z de la maille, la densité électronique dépend du contenu atomique. Chaque intensité diffractée est proportionnelle au carré de l’amplitude du facteur de structure, que nous écrivons F (hkl ) (figure 8.11). La formule précédente peut être réécrite sous une forme en trois dimensions. La fonction intégrale est similaire à une somme mais tient compte de la continuité de la densité électronique dans la maille. Cette formulation c’est la transformée de Fourier de la densité électronique ρ(xyz). Nous retrouvons le facteur de structure dans l’espace réciproque, et la densité électronique du cristal soumis à un faisceau de rayons X dans l’espace réel. Il est essentiel de bien comprendre que chaque atome apporte une contribution à l’ensemble des facteurs de structure (figure 8.11).
I(hkl) ∝ |F(hkl)|2
F(hkl) = ∫ ϱ(xyz) e2πi(hx+ky+lz)dV V
Figure 8.11 Transformée de Fourier appliquée aux facteurs de structure d’un jeu de données de diffraction.
Inversement, chaque réflexion d’indices hkl dans un jeu de données de diffraction contient une partie de l’information sur la densité électronique en tout point x, y, z de la maille cristalline. C’est la transformée de Fourier inverse :
125
Introduction à la biocristallographie
ρ (xyz ) =
1 V
∑h∑k∑l
F (hkl ) e iα (hkl )e −2π i (hx + ky +lz ) (8.8)
V : volume de la maille ; F (hkl ) : amplitude de la réflexion hkl ;
α (hkl ) : phase de la réflexion hkl . Il s’agit ici d’une somme des facteurs de structures parce qu’il n’y a pas de continuité.
8.2.2
Le problème de la phase
À l’issue d’une expérience de diffraction, seul le module des facteurs de structure F(hkl) est mesuré. La phase est inconnue et la densité ρ(xyz) est inconnue. C’est ce qu’on appelle le problème des phases. Pour résoudre la structure tridimensionnelle d’une molécule, il est nécessaire de trouver les phases associées aux facteurs de structures, afin de calculer une carte de densité électronique en tout point x, y, z de la maille cristalline. Plusieurs stratégies ont été développées pour résoudre ce problème de la phase, selon les informations dont nous disposons au préalable sur la molécule qui nous intéresse. Dans le cas d’une protéine, par exemple, il est fréquent que la structure tridimensionnelle d’une protéine de la même famille soit déjà connue, information qui est alors utilisée. Dans le cas d’études de mutants d’une protéine ou de complexes entre une protéine et des petits ligands, il peut arriver que la forme cristalline, (décrite par les paramètres de maille, le système cristallin et la position de la protéine) de la protéine étudiée soit la même que celle de la protéine de structure connue. Dans ce cas, il suffit d’utiliser les amplitudes mesurées et les phases calculées avec le modèle de structure connue pour effectuer une synthèse de Fourier et calculer la densité électronique associée à la protéine. En général, la forme cristalline est différente, et la méthode de phasage utilisée peut être le remplacement moléculaire, qui consiste à placer la molécule de structure connue dans la nouvelle maille cristalline. Enfin, lorsqu’aucune structure voisine n’est disponible, il est nécessaire d’effectuer un phasage expérimental, selon différentes méthodes possibles (figure 8.12). Protéine de la même famille structurale Structure connue
Système cristallin
Méthode de phasage
Identique
Synthèse de Fourier
Différent
Remplacement moléculaire Remplacement Isomorphe Simple (SIR)
Aucune structure voisine connue
Dispersion Anomale à une longueur d’onde (SAD)
Remplacement Isomorphe multiple (MIR) Dispersion Anomale à Multilongueur d’onde (MAD)
Figure 8.12 Les différentes méthode de « phasage » d’une structure de macromolécule.
126
Chapitre 8. La transformée de Fourier
Vidéos associées 8.1 Introduction à la transformée de Fourier https://youtu.be/mZ2fDZb9l2o
8.2 La transformée de Fourier et le problème de phase https://youtu.be/edSaxcHdTBU
127
Chapitre 9 La fonction de Patterson
9.1 Le problème de la phase et la fonction
de Patterson
9.1.1
Fonction de Patterson
En 1935, Arthur Lindo Patterson est visiteur scientifique dans le laboratoire du cristallographe Bertram Eugène Warren au Massachusetts Institute of Technology. Patterson se demande ce qu’il pourrait obtenir en appliquant la transformée de Fourier non pas aux facteurs de structure, mais directement aux intensités, c’est-àdire aux amplitudes au carré :
I (hkl ) = F (hkl ) 2(9.1)
Ainsi, la fonction de Patterson s’écrit comme une série de Fourier dont les coefficients ne sont plus les facteurs de structure F (hkl ), mais les intensités I (hkl ). L’idée de Patterson est d’exploiter les informations disponibles en l’absence de phases (figure 9.1).
129
Introduction à la biocristallographie
Figure 9.1 La fonction de Patterson
9.1.2
Propriétés de la fonction de Patterson
En substituant la formule de la transformée de Fourier (figure 8.11) dans la définition de la fonction de Patterson ci-dessus, nous trouvons :
P (uvw ) = ∫ ( xyz ) (u + x, v + y, w + z ) dV (9.2) V
Il s’agit de la fonction d’autocorrélation de la densité électronique.
Première propriété : La formule ci-dessus montre que P (uvw ) sera maximum pour les valeurs de u, v et w où ( xyz ) et (u + x, v + y, w + z ) sont maximum, c’est-à-dire aux positions atomiques. Ainsi, si nous considérons deux atomes 1 et 2 aux positions x1, y1, z1 et x 2, y 2, z 2 dans la maille du cristal, ( xyz ) présente des pics en ces points. La fonction de Patterson présente un pic au vecteur de coordonnées u, v, w tel que : u = x 2 − x1 v = y 2 − y1 w = z 2 − z1 La norme de ce vecteur est égale à la distance entre les atomes 1 et 2 (figure 9.2) (voir encadré sur les opérations vectorielles, chapitre 3). P(uvw) = 1/V ∑ I(hkl) e-2πi(hu+kv+lw) hkl x2, y2, z2
x1, y1, z1
u = x2 - x1 v = y2 - y1 w = z2 - z1
Figure 9.2 La fonction de Patterson et sa représentation. La flèche bleue représente le vecteur de coordonnées u, v, w dans l’espace de Patterson, joignant les atomes aux positions x1, y1, z1 et x2, y2, z2.
130
Chapitre 9. La fonction de Patterson
Deuxième propriété : Comme la fonction de Patterson est périodique de période 1 dans les trois directions (P(u+1,v+1,w+1) = P(uvw)), l’espace du cristal et l’espace de Patterson ont la même maille. Utilisons cette propriété pour construire pas à pas un exemple de fonction de Patterson. Supposons une maille cristalline contenant 3 atomes de coordonnées x1, y1, z1 ; x2, y2, z2 ; et x3, y3, z3 (figure 9.3a). Les vecteurs interatomiques de ces trois atomes forment un triangle (figure 9.3b). Pour représenter la fonction de Patterson, nous conservons la maille cristalline, avec les trois atomes 1, 2, 3 (figure 9.3c). Nous plaçons successivement chaque sommet du triangle à l’origine de la maille (figure 9.3d–f ). Puisque le cristal est périodique, nous répétons l’opération pour chaque maille (figure 9.3g–h). Pour une maille donnée,
Figure 9.3 Représentation en bande dessinée de la construction de la fonction de Patterson appliquée à une maille contenant trois atomes.
131
Introduction à la biocristallographie
nous avons maintenant un ensemble de pics, représentant chacun une distance interatomique (figure 9.3i). Ainsi, nous trouvons les pics correspondant aux vecteurs dont les normes sont égales aux distances interatomiques (figure 9.3j). Par exemple, u = x 2 − x1 , v = y 2 − y1 , w = z 2 − z1 , sont les coordonnées du vecteur joignant l’atome 2 à l’atome 1. Pour une maille contenant N atomes, le nombre de pics que l’on trouvera dans la carte de Patterson sera de N que multiplie N, pour avoir toutes les distances atome / atome, moins N parce que la distance d’un atome avec lui-même est égal à zéro, ce qui correspond au pic origine. Ce qui donne un nombre de pics de N2 – N (figure 9.4). Avec trois atomes : 32 – 3 = 6 pics. Quand le nombre d’atomes augmente, le nombre de pics devient rapidement très élevé.
N = 3 atomes
N2 - N = 32 - 3 = 6 pics de Patterson
Figure 9.4 Calcul du nombre de pics interatomiques d’une carte de Patterson.
Troisième propriété : Une propriété importante de la fonction de Patterson est que la hauteur des pics est proportionnelle au produit du nombre d’électrons des atomes. Cette propriété est utilisée pour détecter la présence d’atomes plus lourds dans une structure. Comme un atome n’est pas un point, il a une certaine largeur, ce qui peut mener à des chevauchements entre les pics de Patterson : les pics s’additionnent, se confondent, et nous observons un seul pic plus large (figure 9.5).
Figure 9.5 Chevauchement de pics dans une carte de Patterson.
132
Chapitre 9. La fonction de Patterson
En biologie, les macromolécules sont composées de milliers d’atomes. Par conséquent, la carte de Patterson comporte un nombre de pics très important, ce qui provoque de nombreux chevauchements.
9.1.3
Utilisation de la fonction de Patterson
Il y a deux utilisations principales de la fonction de Patterson indispensables pour la résolution du problème des phases : – L’approche du remplacement moléculaire consiste à placer un modèle de structure connue dans une nouvelle maille cristalline (voir chapitre 10). La fonction de Patterson permet de séparer l’étape d’orientation du modèle de l’étape de positionnement du modèle, ce qui va considérablement accélérer les calculs associés ; – Les approches de phasage expérimental, qu’il s’agisse de remplacement isomorphe ou d’analyse des signaux de dispersion anomale, commencent par la détermination de la position des atomes lourds ou des diffuseurs anomaux. Pour cela, nous calculons des différences entre jeux de données, de façon à conserver seulement les vecteurs qui nous intéressent (voir chapitre 11). Des cartes de Patterson calculées à partir de ces différences sur les intensités vont permettre de résoudre la position des atomes lourds ou des diffuseurs anomaux et d’obtenir une première estimation des phases.
133
Introduction à la biocristallographie
Vidéos associées 9. La fonction de Patterson : https://youtu.be/gyxrLUHtGNo
134
Chapitre 10 Le calcul des phases par remplacement moléculaire
La transformée de Fourier et la fonction de Patterson constituent les outils théoriques majeurs à connaître pour résoudre la structure tridimensionnelle d’une macromolécule. Nous avons vu que l’introduction d’un déphasage sur une seule harmonique de la série ne permet plus de reconstruire le signal initial (figure 8.6). L’importance relative des amplitudes et des phases peut être illustrée par le calcul d’une « carte de densité électronique » en utilisant les amplitudes de la diffraction d’un canard et les phases de la diffraction d’un chat. L’image obtenue est celle d’un chat, ce qui montre le poids dominant de l’origine des phases (figure 10.1). Puisque les phases sont prépondérantes et qu’on ne peut pas les mesurer, nous avons besoin de développer des méthodes pour les estimer. Les deux grandes approches pour cela sont le remplacement moléculaire et le phasage expérimental.
10.1 Le remplacement moléculaire Dans certains cas, nous pouvons poser l’hypothèse a priori que la structure de la molécule étudiée est similaire à celle d’une molécule de structure connue. Par exemple, les recherches bibliographiques associées au projet ont mis en évidence la structure tridimensionnelle d’une protéine voisine de celle étudiée ou d’une partie de la protéine ou de l’assemblage tridimensionnel. Une autre possibilité est la mise
135
Introduction à la biocristallographie
TF
TF
Amplitudes
Phases
TF-1 Figure 10.1 Le phasage du chat et du canard, emprunté à Kevin Cowtan (Book of Fourier, http://www.ysbl.york.ac.uk/~cowtan/fourier/fourier.html).
en évidence d’une séquence similaire à celle de la protéine étudiée. Dans les deux cas, la structure connue est référencée dans la base de données « Protein Data Bank » ou PDB (voir introduction). Qu’il s’agisse d’une molécule de séquence voisine, ou d’un fragment de la molécule ou de l’assemblage étudié, il est possible d’utiliser la structure connue comme “modèle” pour résoudre le problème des phases par la méthode du remplacement moléculaire.
10.1.1 Fonction de Patterson et remplacement moléculaire L’objectif du remplacement moléculaire (RM) est de positionner un modèle tridimensionnel dans le système cristallin étudié. À partir des données expérimentales, nous calculons une fonction de Patterson dite expérimentale. Les pics de cette Patterson correspondent aux vecteurs interatomiques (figure 10.2). Certains vecteurs interatomiques sont intramoléculaires, ils représentent les distances entre des atomes d’une même molécule du cristal. Leur position dépend de l’orientation de la molécule dans la maille. D’autres vecteurs interatomiques sont intermoléculaires, c’est-à-dire qu’ils représentent les distances interatomiques de molécules distinctes du cristal. Leur position dépend de la disposition des molécules les unes par rapport aux autres dans la maille (figure 10.2).
136
Chapitre 10. Le calcul des phases par remplacement moléculaire
Distances intramoléculaires
Distances intramoléculaires et intermoléculaires
Espace réel
Espace de Patterson
Figure 10.2 Représentation des vecteurs associés aux distances intramoléculaires (en bleu) et intermoléculaires (en vert), dans l’espace réel ou dans l’espace de Patterson. Par souci de clarté, seuls les vecteurs intermoléculaires au sein d’une maille sont représentés.
Comme les distances interatomiques intramoléculaires sont plus courtes que les distances interatomiques intermoléculaires, il est possible de découpler l’information d’orientation de la molécule dans la maille (fournie par les vecteurs intramoléculaires) et l’information de position de la molécule dans la maille (fournie par les vecteurs intermoléculaires). Dans une première étape, nous cherchons à décrire l’orientation du modèle par une opération de rotation. Pour procéder, nous plaçons d’abord le modèle dans une maille artificielle dépourvue d’opération de symétrie et dont les paramètres forment une boîte suffisamment grande pour qu’il n’y ait pas de molécules voisines proches. À partir de ce cristal théorique, nous appliquons la transformée de Fourier pour calculer des intensités de diffraction théoriques. Puis, nous calculons la fonction de Patterson avec ces intensités théoriques. Du fait de la grande taille de la boîte et de la présence d’une seule molécule dans la maille, l’ensemble des pics dans la carte de Patterson théorique représente une cartographie des vecteurs intramoléculaires. Leur position dépend de l’orientation de la molécule dans sa maille artificielle. Pour connaître l’orientation de la molécule dans la maille, nous cherchons à superposer la carte de Patterson calculée avec les données théoriques sur la carte de Patterson calculée avec les données expérimentales. Nous appliquons des rotations successives de la carte de Patterson et, à chaque position angulaire, nous calculons la corrélation entre les deux cartes de Patterson. C’est la fonction de rotation. Lorsque les maxima correspondant aux vecteurs intramoléculaires des deux fonctions de Patterson se superposent, la corrélation est maximale. Cela signifie que l’orientation de la
137
Introduction à la biocristallographie
molécule dans la maille cristalline expérimentale est celle décrite par la fonction de Patterson calculée pour cette rotation particulière. On peut ainsi en déduire directement l’orientation de la molécule que l’on recherche (figure 10.3).
P1
?
Transformation de Fourier
Molécule orientée
Icalc
Acquisition des données
Iexp Fonction de Patterson
Fonction de Patterson
Rotation
Rotation associée à une corrélation maximale
Figure 10.3 Utilisation de la fonction de Patterson pour orienter la molécule dans la maille.
Dans une deuxième étape, une fois l’orientation de la molécule déterminée, il faut trouver sa position dans la maille cristalline expérimentale, c’est-à-dire la translation de la molécule par rapport à l’origine. Concrètement pour cette étape de translation, nous calculons une fonction de Patterson à chaque position possible de la molécule dans la maille, et la comparons à la fonction de Patterson calculée avec les données expérimentales. Pour ce faire nous utilisons les opérations de symétrie du cristal. En effet, les vecteurs interatomiques intermoléculaires dépendent des positions relatives des molécules, qui elles-mêmes dépendent des opérations de symétrie (figure 10.4). Ainsi, nous connaissons l’orientation du modèle et nous savons calculer la position des molécules qui lui sont reliées par symétrie. La corrélation entre la Patterson calculée et celle expérimentale est exprimée mathématiquement par la fonction de translation. Le pic de corrélation maximum reflète à la fois l’orientation et la position correcte de la molécule, c’est-à-dire la solution de remplacement moléculaire. Sans connaissance préalable de l’orientation de la molécule, la recherche de la position serait
138
Chapitre 10. Le calcul des phases par remplacement moléculaire
fastidieuse. Il faudrait en effet, rechercher la bonne orientation pour chaque position possible de la maille. La force de cette méthode de remplacement moléculaire vient précisément du découplage en une étape de rotation suivie d’une étape de translation, qui permet de chercher les six paramètres trois par trois. Distances intramoléculaires et intermoléculaires
Distances intramoléculaires et intermoléculaires
Espace réel
Espace de Patterson
Figure 10.4 Effet de la position des molécules dans la maille sur les vecteurs interatomiques intermoléculaires.
10.1.2 Évaluation du résultat de remplacement moléculaire Quel que soit le problème de remplacement moléculaire posé, quel que soit le logiciel utilisé, il y a toujours un résultat sous la forme d’une liste de coefficients de corrélation. Il faut pouvoir distinguer la solution correcte alors qu’elle n’a pas toujours le coefficient de corrélation le plus élevé. Pour cela, il est essentiel d’évaluer et de connaître les facteurs qui affectent le calcul de ces coefficients. Le premier facteur vient de la qualité des données de diffraction : – La précision et la fiabilité des mesures sont des paramètres essentiels qui ont déjà été abordés au cours du chapitre 7. Un facteur d’accord élevé ou un faible rapport signal sur bruit sont les signes d’une mauvaise qualité des données ; – La complétude des données, c’est-à-dire le pourcentage de données collectées par rapport au nombre de réflexions possibles à une résolution donnée. Connaissant les paramètres de maille et les symétries, il est possible de prévoir combien de réflexions peuvent être enregistrées. À pourcentage équivalent, s’il manque une portion de l’espace réciproque (zone angulaire non collectée
139
Introduction à la biocristallographie
par exemple), l’effet est plus important que si les données manquantes sont réparties de façon aléatoire. Le deuxième facteur vient de la qualité du modèle : – Son degré d’homologie avec la molécule étudiée : généralement, en dessous de 30 % d’identité de séquence, les structures moléculaires peuvent être très différentes, et les erreurs associées aux intensités calculées deviennent trop élevées pour que les fonctions de rotation ou de translation permettent de trouver la bonne solution ; – La fraction de la structure recherchée que représente le modèle. Le modèle peut être très proche, ou identique, mais recouvrir seulement une petite fraction de la molécule ou de l’assemblage étudié. Dans ce cas, même si la solution de remplacement moléculaire est correcte, les phases qui en sont déduites ne sont pas suffisamment précises pour calculer une carte de densité électronique permettant de construire l’ensemble de la molécule. On dit dans ce cas que le pouvoir de phasage apporté par la portion de structure est insuffisant ; – Enfin, l’identité du modèle n’est pas reflétée seulement par l’identité de séquence. En fait, c’est surtout la ressemblance structurale qui importe. Ainsi, si la même molécule est dans une conformation trop différente, elle ne permet pas de résoudre la structure par remplacement moléculaire ; – Dans le même ordre d’idée, la précision et la fiabilité du modèle affectent le résultat. Ainsi, le type d’erreurs associées aux structures RMN anciennes les rendent plus difficiles à utiliser en remplacement moléculaire, de même que les structures à très basse résolution quelle que soit la méthode utilisée pour les déterminer. Le troisième facteur est la méthode d’évaluation de la vraisemblance des solutions trouvées par remplacement moléculaire. Les méthodes classiques utilisent les coefficients de corrélation comme la fonction de rotation et la fonction de translation que nous venons d’aborder. Plus récemment, des approches statistiques permettent de mieux traiter les erreurs associées au modèle ou aux données. Enfin, le quatrième facteur est la résolution des données expérimentales, qui doit être adaptée. En particulier, plus le modèle utilisé est éloigné de la structure étudiée, moins les données à haute résolution apportent d’information pertinente dans la recherche de la solution. Par contre, quand le groupe d’espace du cristal est de symétrie élevée, des données à haute résolution permettent de discriminer les solutions.
140
Chapitre 10. Le calcul des phases par remplacement moléculaire
Vidéos associées 10. Le remplacement moléculaire : https://youtu.be/5w6EY-ofCIA
141
Chapitre 11 Le calcul des phases par approches expérimentales
11.1 Le remplacement isomorphe Si aucune structure similaire à celle étudiée n’est connue, le calcul des phases va nécessiter la détermination ab initio d’une petite partie du contenu moléculaire de la maille : il s’agira d’un ou plusieurs atomes lourds dans le cas du remplacement isomorphe, ou d’un ou plusieurs diffuseurs anomaux dans le cas de la méthode de la diffusion anomale.
11.1.1 Les données natives et dérivées Deux propriétés permettent d’effectuer le remplacement isomorphe : 1- Chaque intensité collectée fournit un facteur de structure, lui-même relié par transformation de Fourier à l’ensemble des électrons de la maille cristalline. Donc si l’on modifie le contenu du cristal, cela induit des variations sur l’ensemble des facteurs de structure ; 2- Les cristaux de macromolécules sont poreux. Ils contiennent en moyenne 50 % de solvant sous forme de canaux dans lesquels il est possible de faire diffuser toutes sortes de petites molécules. Les macromolécules constituant le cristal pourront éventuellement interagir avec les molécules diffusées.
143
Introduction à la biocristallographie
Pour exploiter ces propriétés, nous collectons un premier jeu de données avec un cristal de macromolécule dit « natif » en l’absence de toute modification. Ce jeu de mesures correspond aux données natives. Dans un cristal de la même forme cristalline nous faisons diffuser une solution contenant un sel d’atome lourd soluble et riche en électrons, comme du platine ou du mercure par exemple, qui contiennent respectivement 78 et 80 électrons. Concrètement, soit nous plongeons ce cristal dans la solution de sel d’atome lourd de façon à ce qu’elle diffuse dans le cristal, soit nous ajoutons le sel d’atome lourd à la solution de cristallisation pour effectuer ce qu’on appelle une co-cristallisation. Le sel d’atome lourd interagit éventuellement avec un ou plusieurs groupements chimiques de la molécule cristallisée. Nous collectons un 2e jeu de données avec ce cristal, que nous appellerons les données dérivées (figure 11.1). (a) Données natives
λ
Cristal natif
Rayons X
(b) Trempage
(c) Données dérivées
λ
2θmax Détecteur de rayons X
Pt, Hg, U, Sm, Yb, Pb, Au.… sous forme de sel dissout dans la solution de cristallisation
Cristal ‘dérivé’
2θmax
Rayons X
Détecteur de rayons X
Figure 11.1 (a) : acquisition des données natives ; (b) : préparation d’un cristal dérivé par trempage dans la solution de cristallisation complétée en sel(s) d’atomes lourds ; (c) : acquisition des données dérivées.
Si l’atome lourd a interagi avec des groupements précis des macromolécules et de façon ordonnée dans le cristal, alors cela se traduira par une augmentation du nombre d’électrons à des positions précises. En conséquence, les intensités collectées avec le cristal dérivé vont être différentes de celles du cristal natif. Nous pouvons décrire le phénomène par une représentation vectorielle comme en figure 11.2a. (a)
FH
αH ? FPH
FP αP ?
αPH ?
(b) derivé
natif
atome lourd
Natif : Facteur de structure FP, phase αP inconnue Dérivé : Facteur de structure FPH, phase αPH inconnue Contribution de l’atome lourd : Facteur de structure FH, phase αH inconnue
Figure 11.2 Représentation vectorielle des données natives et dérivées (a) et illustration de la décomposition du signal pour localiser l’atome lourd (b).
144
Chapitre 11. Le calcul des phases par approches expérimentales
Pour passer des données natives aux données dérivées, nous traçons le vecteur FH dont la phase est également inconnue à ce stade. Si nous trouvons la position des atomes lourds H, alors nous connaissons la densité ρ(xyz) des atomes lourds H, et les FH et αH associés à chaque réflexion de l’espace réciproque peuvent être calculés. La fonction de Patterson peut permettre de localiser les atomes lourds qui occupent des positions régulières dans chaque maille du cristal. Deux conditions sont essentielles pour utiliser la fonction de Patterson : 1- Le cristal dérivé doit être isomorphe au cristal natif : les paramètres de maille et la symétrie du cristal doivent être conservés entre le cristal natif et le cristal dérivé, et la molécule ne doit pas avoir subi de rotation, ni de translation ou déformation notable dans la maille. Il faut également que la fixation des atomes lourds bouleverse le moins possible le contenu de la maille ; 2- La contribution de ces atomes aux intensités diffractées doit être suffisamment forte et étendue vers la haute résolution. Pour cela, il faut qu’ils se fixent précisément au même site moléculaire dans chaque maille. Ces deux conditions peuvent être évaluées au moment de la mise à l’échelle des données natives et dérivées1, préalable au calcul des différences isomorphes. À cette étape, si les différences entre les données sont très fortes sur toute la gamme de résolution, cela peut indiquer un défaut d’isomorphisme. À l’inverse, si elles sont trop faibles, elles peuvent ne pas être exploitables pour déterminer la position des sites, pour calculer des phases exploitables.
11.1.2 Fonction de Patterson et sections de Harker La soustraction des facteurs de structure natifs aux facteurs de structure dérivés doit mener aux facteurs de structure de l’atome lourd :
FPH 2 − FP 2 = ∆Fiso 2 (11.1)
(iso pour isomorphe). Cette différence est une approximation de FH 2 (figure 11.2) En calculant une fonction de Patterson avec ces différences, ce sont les éléments de symétrie du système cristallin qui vont nous aider à trouver la position de l’atome lourd. Pour simplifier, plaçons-nous dans un cas où il y a un seul atome lourd par motif cristallin. Lorsqu’on calcule les positions u, v, w de l’espace de Patterson, les éléments de symétrie sont associés à des sections particulières, appelées sections de Harker. Par exemple, dans le cas du groupe d’espace monoclinique P21, il existe 2 positions équivalentes : x, y, z et −x, y + 1 2 , −z . Dans l’espace de Patterson, 1. La mise à l’échelle entre deux jeux de données, consiste à calculer des facteurs de proportionnalité entre les jeux de données pour tenir compte des paramètres expérimentaux (taille du cristal, pouvoir diffusant, temps d’exposition, …).
145
Introduction à la biocristallographie
pour déterminer les coordonnées des vecteurs interatomiques entre atomes reliés par symétrie, nous devons calculer les coordonnées u, v, w correspondant aux positions reliées par symétrie. Entre la position x, y, z et elle-même, la différence est bien entendu 0 0 0, ainsi qu’entre la position −x, y + 1 2 , −z et elle-même. Ce sont les résultats croisés entre x, y, z et −x, y + 1 2 , −z qui apportent une information. Dans ce cas précis du groupe d’espace P21, la position v = ½ correspond à un plan dans l’espace de Patterson dont la position est indépendante de la position de l’atome lourd. Il s’agit d’une section de Harker qui ne dépend que de la symétrie du cristal (les plans v = ½ ou v = -½ sont équivalents, car nous travaillons avec des coordonnées fractionnaires comprises entre 0 et 1, et que la Patterson est centrosymétrique. Dans cette section, nous trouvons 2 pics provenant de la présence de l’atome lourd. Les coordonnées u, w des pics nous renseignent directement sur les coordonnées x et z de l’atome correspondant. Dans cette carte, les deux pics observés signifient que nous avons un atome lourd fixé dans chaque maille du cristal avec lequel nous avons colle cté les données dérivées. À ce stade, nous ne connaissons pas la position en y , mais nous avons le droit de la positionner arbitrairement à 0. Puisque nous avons localisé un atome, nous pouvons calculer son facteur de structure FH , et nous connaissons la phase associée à FH (figure 11.3).
Figure 11.3 Calcul des sections de Harker pour le groupe d’espace P21 (a), et carte de différence de Patterson entre des données natives et dérivées dans le groupe d’espace P21 (b).
11.1.3 Représentation vectorielle des sections de Harker Avec un seul dérivé isomorphe, nous effectuons un remplacement isomorphe simple, ou SIR (pour Single Isomorphous Replacement). Pour une tache de diffraction donnée, nous connaissons l’amplitude du facteur de structure FP , représentée par la longueur du vecteur, mais nous ne connaissons pas sa phase. Pour retrouver cette information, il
146
Chapitre 11. Le calcul des phases par approches expérimentales
existe une représentation géométrique, appelée construction de Harker. Nous traçons un cercle qui représente toutes les valeurs possibles de la phase. À partir de l’origine, nous avons le droit de positionner le vecteur −FH , ce qui correspond à une soustraction du vecteur FH . Connaissant la position de l’atome lourd, nous connaissons la phase associée, donc nous connaissons la direction du vecteur. À l’extrémité du vecteur −FH , nous traçons le vecteur de longueur FPH , correspondant à l’amplitude du facteur de structure des données dérivées. Pour représenter la phase associée qui est inconnue, nous traçons également un cercle. Nous observons 2 points d’intersection et donc 2 positions possibles des vecteurs FP et FPH . Puisque nous savons que FPH – FH = FP (voir l’encadré sur les opérations vectorielles du chapitre 3), alors les 2 points d’intersection correspondent aux 2 positions possibles pour ces vecteurs, c’est-à-dire aux 2 valeurs de phases possibles (figure 11.4a). Construction de Harker : remplacement isomorphe simple (SIR)
FPH2
FP
FP FPH
Construction de Harker : remplacement isomorphe multiple (MIR)
-FH
-FH2 FP
FPH
(a)
-FH FPH
(b) Deux intersections des cercles => Deux phases possibles => Ambiguïté de phase
Une intersection entre les trois cercles => Distribution de la probabilité de phase => Ambiguïté de phase résolue
Figure 11.4 Représentation vectorielle des sections de Harker et de l’ambiguïté de phase de la méthode SIR (a) résolue par la méthode MIR (b).
Ainsi, l’information apportée par un dérivé d’atome lourd unique mène à deux phases possibles pour chaque facteur de structure. Nous avons beaucoup progressé, mais il reste une ambiguïté de phase. Ajoutons un deuxième dérivé d’atome lourd. Nous passons alors à la méthode du remplacement isomorphe multiple, MIR (pour Multiple Isomorphous Replacement). Nous avons un deuxième facteur de structure FH 2 et un deuxième facteur de structure FPH 2 . Le nouveau cercle associé aux phases possibles de FPH 2 croise le cercle FP en deux points, correspondant aux deux phases possibles que nous venons de voir. Par contre, il n’y a plus qu’une seule intersection commune aux trois cercles, qui correspond à la phase correcte du facteur de
147
Introduction à la biocristallographie
structure FP . Avec un deuxième dérivé d’atome lourd, localisé à une position différente dans la maille cristalline, l’information apportée permet de lever l’ambiguïté de phase. Le problème de la phase est donc résolu et nous pouvons calculer une carte de densité électronique (figure 11.4b).
11.2 La diffusion anomale Un apport majeur de la production des rayons X avec un synchrotron vient du fait que le rayonnement est accordable. Cela signifie qu’on peut faire varier l’énergie du faisceau de rayons X, ou sa longueur d’onde, ce qui revient au même.
11.2.1 Le signal anomal Nous avons vu précédemment (§ 4.3) que dans les conditions dites « normales », la diffusion des rayons X dépend seulement de la densité d’électrons de l’atome. Le facteur de diffusion f est un nombre réel, f0 , et à certaines longueurs d’onde, le phénomène de diffusion anomale induit une brusque variation du signal de diffusion (figure 11.5).
Figure 11.5 Diffusion de l’onde incidente par un atome selon le nombre d’électrons, et selon la longueur d’onde.
Le facteur de diffusion de l’atome doit donc s’écrire : f = f0 + δ f
δ f est la correction anomale. Il s’agit d’un nombre complexe qui s’écrit sous la forme : δ f = f ’+ if ’’ Ainsi, la description complète du facteur de diffusion atomique f, inclut trois termes : – f 0 , qui tient compte seulement du nombre d’électrons ; – f ’, que nous appelons le terme dispersif ;
148
Chapitre 11. Le calcul des phases par approches expérimentales
– f ’’, qui est relié au phénomène d’absorption, et est associé à la partie imaginaire. f ’ et f ’’ varient en fonction de la longueur d’onde, contrairement à f 0 . Ainsi, pour un élément particulier, le signal d’émission de fluorescence en fonction de l’énergie du faisceau de rayons X montre une brusque augmentation à une énergie spécifique (figure 7.3 et 11.6). En conséquence, l’amplitude des ondes diffractées sera différente à l’énergie correspondant à la fluorescence maximale, au sommet d’un pic où la composante f ’’ est maximale, ou à une énergie éloignée, à laquelle le facteur de diffusion ne dépend pratiquement que du nombre d’électrons. Le seuil d’énergie auquel se situe ce phénomène est une caractéristique de chaque atome. Tous les atomes ont au moins un seuil de diffusion anomal, et peuvent en avoir plusieurs. Cependant, l’énergie, ou la longueur d’onde, à laquelle se produit ce phénomène n’est pas toujours accessible sur une ligne de lumière (par exemple pour S, P ou Cl il faudrait une énergie inférieure à 3 keV), et nous ne pouvons donc pas toujours travailler au seuil de diffusion anomale pour résoudre le problème de la phase.
Figure 11.6 Variation de l’intensité du signal d’émission de fluorescence du Zn en fonction de l’énergie (a). L’équation de Kramers-Kronig relie la valeur expérimentale de f ’ à celle de f ’’ obtenue par la mesure de la fluorescence du cristal (b).
149
Introduction à la biocristallographie
11.2.2 Violation de la loi de Friedel Chaque facteur de structure F (hkl ) est défini par :
F (hkl ) = ∑ f j e 2iπ (hxj + kyj + lzj ) j
(11.2)
où la somme se fait sur les atomes j de la maille en positions (xj, yj, zj). En l’absence de diffuseur anomal, c’est-à-dire quand les facteurs de diffusion f j sont réels, ou si le cristal est centrosymétrique, l’équation (11.2) ci-dessus permet de constater que : F * (hkl ) = F (hkl ) Ainsi, on peut écrire que : I (hkl ) = F (hkl ) × F (hkl ) De la même façon, pour les indices hkl on peut écrire : I (hkl ) = F (hkl ) × F (hkl ) Par conséquent :
I (hkl ) = I (hkl ) (11.3)
C’est la loi de Friedel. Supposons qu’une macromolécule cristallisée contienne un diffuseur anomal H. Pour le cristal non dérivé : FP (hkl ) = FP (hkl ) ; et les phases respectives sont opposées. De même, en absence de diffusion anomale : FPH (hkl ) = FPH (hkl ) ; et là aussi les phases respectives sont opposées. Entre FP et FPH , nous pouvons tracer FH , qui est également équivalent en hkl et en hkl. La loi de Friedel est respectée (figure 11.7a). À une longueur d’onde à laquelle le signal anomal affecte la diffusion, il y a une contribution imaginaire supplémentaire, f ’’, correspondant au signal anomal de l’atome H. Cette contribution f ’’ est toujours orientée à 90° de FH . En conséquence, l’amplitude et la phase des vecteurs FPH (hkl ) et FPH (hkl ) deviennent différentes. Il y a violation de la loi de Friedel (figure 11.7b).
150
Chapitre 11. Le calcul des phases par approches expérimentales
Figure 11.7 Représentation vectorielle des facteurs de structures montrant le respect (a) et la violation (b) de la loi de Friedel.
11.2.3 Exploitation du signal anomal La localisation d’un diffuseur anomal dans la maille cristalline permet de résoudre le problème de la phase. Comme dans le cas du remplacement isomorphe, la fonction de Patterson est utilisée pour positionner le diffuseur anomal, en l’appliquant à la différence entre les facteurs de structure mesurés à deux longueurs d’ondes différentes, ou plus simplement à la différence entre les réflexions d’indices hkl et les réflexions d’indices hkl , si la longueur d’onde à laquelle les données ont été collectées est associée à une violation de la loi de Friedel (figure 11.8). L’avantage de l’utilisation du signal anomal est qu’un seul cristal suffit pour collecter l’ensemble des données qui vont permettre de résoudre le problème de la phase. Une conséquence essentielle est également que le signal est intrinsèque au cristal, c’est-à-dire venant directement de la protéine ou de l’assemblage moléculaire cristallisé. Par conséquent, il n’y a pas ici de problème d’isomorphisme comme on peut en rencontrer avec la méthode du remplacement isomorphe. La condition est la présence d’un diffuseur dont le seuil d’absorption se situe à une énergie dans le domaine des rayons X, ce qui n’est pas le cas des atomes dits légers comme le carbone, l’azote, ou l’oxygène. Les atomes de soufre des résidus de méthionine ou de cystéine ont un signal de diffusion anomal à une longueur d’onde située autour de 5 Å, ce qui est rarement accessible sur une ligne de lumière et pose de nombreux problèmes expérimentaux. En effet, à cette longueur d’onde, les rayons X sont beaucoup plus rapidement absorbés par l’air, le cristal et son support, ce qui rend la mesure du signal plus difficile à extraire du bruit induit par l’absorption et la diffusion. Dans le cas des acides nucléiques, le phosphore peut être exploité de façon analogue au soufre,
151
Introduction à la biocristallographie
Figure 11.8 Utilisation du signal anomal, en comparaison avec l’utilisation du signal isomorphe.
avec un seuil d’absorption situé autour de 5,8 Å. Les possibilités d’utilisation de ces atomes ont progressé significativement grâce à l’apparition des détecteurs pixellisés, dont la qualité et la rapidité permettent d’extraire des signaux faibles par rapport au bruit de fond. Mais la méthode la plus fréquemment utilisée consiste à substituer certains atomes de soufre des protéines, par des atomes de sélénium. Lors de la production de protéines par des bactéries, il est possible d’ajouter de la séléno-méthionine dans le milieu de culture à la place de la méthionine. Dans ce cas, lorsque la bactérie produit la protéine, elle incorpore la séléno-méthionine à la place de la méthionine (voir chapitre 2). Le seuil d’absorption du sélénium se situe autour de 0,98 Å, avec un signal anomal élevé, ce qui est particulièrement adapté à la diffraction X (voir les seuils d’absorption des éléments de la classification périodique : http://skuld.bmsc. washington.edu/scatter/AS_periodic.html). Les formalismes abordés pour le remplacement isomorphe sont identiques dans le cas de la diffusion anomale. Si nous disposons de données à une seule longueur d’onde, nous parlons de SAD (pour Single Anomalous Dispersion). Dans ce cas, nous collectons les données à la longueur d’onde correspondant au pic de fluorescence pour exploiter la violation de la loi de Friedel. L’ambiguïté de phase sera similaire à celle de la méthode SIR. Si nous collectons des données de diffraction à plusieurs longueurs d’onde, nous parlons de MAD (pour Multiple Anomalous Dispersion), et il n’y a plus d’ambiguïté de phases. Il est également possible de combiner remplacement isomorphe et diffusion anomale. Ainsi, avec des données natives et un dérivé d’atome lourd collecté au pic de fluorescence de l’atome lourd, on parle
152
Chapitre 11. Le calcul des phases par approches expérimentales
de SIRAS (pour Single Isomorphous Replacement with Anomalous Scattering). Et enfin, avec plusieurs dérivés d’atome lourd, dont les données sont collectées au pic de fluorescence, il s’agit de MIRAS (pour Multiple Isomorphous Replacement with Anomalous Scattering). Les formalismes qui permettent de calculer les phases sont similaires, qu’il s’agisse de signal anomal ou de signal isomorphe, ainsi que les logiciels qui vous permettront de les exploiter.
11.3 La combinaison des phases Nous avons vu dans les deux premiers paragraphes qu’il est possible d’extraire des informations de phase à partir du positionnement d’un modèle ou en exploitant le signal apporté par des atomes lourds. Mais parfois, après utilisation de l’une ou l’autre de ces méthodes, l’incertitude sur les phases reste encore trop importante. Cela se révèle lors de l’observation de la carte de densité électronique qui ne semble pas être directement exploitable pour construire, corriger ou compléter un modèle atomique satisfaisant. Dans ces cas, nous pouvons essayer de combiner plusieurs sources d’information des phases, trop faibles individuellement, mais qui, une fois combinées, peuvent permettre d’obtenir des cartes de densité électronique interprétables. Il peut s’agir de plusieurs jeux de phases provenant d’atomes lourds individuellement trop faibles, ou de modèles atomiques trop partiels ou dissemblables pour bien refléter le contenu de la maille. Sans entrer trop dans le détail de la procédure employée pour combiner ces phases, notons simplement qu’elle consiste à calculer pour chaque réflexion le produit des distributions de phases individuelles, telles qu’elles vont être définies dans le prochain chapitre. Cette procédure est utilisée pour toute combinaison de phases, que ce soit pour le remplacement isomorphe multiple (MIR) ou pour combiner des phases de remplacement moléculaire avec des phases SAD, SIR ou MIR.
153
Introduction à la biocristallographie
Vidéos associées 11.1 Phasage expérimental : le remplacement isomorphe https://youtu.be/bB7tYIf9WBM
11.2 Phasage expérimental : la diffusion anomale https://youtu.be/NdF70PTDAQU
154
Chapitre 12
Amélioration des phases et construction du modèle
Les premières estimations des phases sont souvent trop imprécises pour permettre leur exploitation telles quelles. Plusieurs approches sont alors utilisées pour les améliorer afin d’obtenir une carte de densité électronique interprétable.
12.1 Erreur de fermeture et figure de mérite Si la structure est résolue par remplacement moléculaire, les premières phases calculées proviennent du modèle utilisé, lequel peut être plus ou moins homologue à la structure étudiée et plus ou moins complet selon la portion de la structure étudiée qu’il représente. Selon les cas, l’erreur associée aux phases peut être élevée ainsi que le biais introduit par le modèle (voir figure 10.1). Dans le cas d’un phasage expérimental, les phases initiales sont calculées à partir des seules positions des atomes lourds ou des diffuseurs anomaux. La représentation vectorielle des données natives, des données dérivées, et du facteur de structure calculé à partir de la position de l’atome lourd forme un triangle (figure 11.2). Cependant, les erreurs associées aux mesures des facteurs de structure, ou aux positions des atomes lourds et à leur occupation1
1. C’est-à-dire leur taux de présence (compris entre 0 et 1) sur un site donné de la maille.
155
Introduction à la biocristallographie
sont telles que ce triangle vectoriel ne se referme pas parfaitement (figure 12.1). Les erreurs associées aux phases peuvent provenir : – Du modèle des atomes lourds ou des diffuseurs anomaux (pour chacun, nous devons connaître les coordonnées x, y, z, l’occupation et le facteur d’agitation thermique, encore appelé facteur de température ou facteur B (voir encadré Limite de résolution et longueur d'onde)) ; – Des amplitudes des facteurs de structures mesurés ; – Des différences de mailles quand on enregistre des données de cristaux différents (non-isomorphisme). Dans tous les cas, ces erreurs se traduisent par ce qu’on appelle une erreur de fermeture. Par exemple, si on considère le facteur de structure FP (hkl ) des données natives, FPH (hkl ) , des données contenant un atome lourd, et FH (hkl ) , qui correspond au facteur de structure calculé à partir des coordonnées des atomes lourds, le triangle formé par les trois vecteurs n’est pas forcément fermé (figure 12.1). La valeur de ε qui permet de relier les modules de FPH (calc ) (hkl ) (en vert) et FPH (obs) (hkl ) (en bleu) est l’erreur de fermeture qui donne une estimation de l’erreur associée à la phase calculée. αH(hkl)
FH(hkl)
}
ε FPH(calc)(hkl)
FP(hkl)
FPH(obs)(hkl) αP(hkl)
Figure 12.1 Représentation vectorielle des données natives et dérivées et de l’erreur de fermeture ε.
Nous écrivons :
ε = FPH (obs) (hkl ) – FPH (calc ) (hkl ) (12.1)
FPH (obs) (hkl ) est le module du facteur de structure FPH (hkl ) observé FPH (calc ) (hkl ) est le module du facteur de structure FPH (hkl ) calculé L’erreur de fermeture peut ainsi être utilisée pour définir une distribution de probabilité de la phase, représentée sous forme de la probabilité en fonction de la valeur possible de la phase (figure 12.2). La distribution a une allure gaussienne, et son centroïde est appelé la meilleure phase, tandis que la valeur la plus élevée de la probabilité correspond à la phase la plus probable. Dans le cas d’un phasage par
156
Chapitre 12. Amélioration des phases et construction du modèle
SIR (chapitre 11, figure 11.4a) l’ambiguïté de phase se reflète dans la distribution de probabilité de phase par la présence de deux maxima (figure 12.2a). Dans le cas d’un phasage par MIR (chapitre 11, figure 11.4b), la phase la plus probable coïncide avec la meilleure phase, l’ambiguïté est levée (figure 12.2b). La valeur de la meilleure phase est celle qu’on utilise dans le calcul de la carte de densité électronique. Une erreur moyenne ∆α peut être déduite de la distribution de probabilité de phase, qui reflète la qualité des phases. Plus ∆α est faible, meilleure est l’estimation de la phase. La valeur moyenne des ∆α permet donc d’avoir une estimation préalable de la qualité de la carte de densité électronique qui sera calculée avec ces phases. Pour simplifier l’interprétation, plutôt que ∆α , on utilise la valeur m = cos (∆α ), appelée figure de mérite. Si m = 1, alors ∆α = 0, il n’y a pas d’erreur de phase. Si m = 0, ∆α = 90°, toutes les phases sont équiprobables. Et si m = 0,5, l’erreur de phase est de 60°. Par exemple, une figure de mérite de 0,23 est associée à une erreur de 76° sur les phases, une figure de mérite de 0,96 est associée à une erreur sur les phases de 16° (figure 12.2).
Figure 12.2 Représentation de la distribution de probabilité de phase dans le cas d’une approche SIR (Single Isomorphous Replacement) (a), ou MIR (Multiple Isomorphous Replacement) (b) (adapté de « The phase problem » (2003) G. Taylor. Acta Cryst. vol D59, pp 1881–1890.). À noter que la surface totale sous chaque gaussienne doit être identique entre les deux cas.
Quelle que soit la méthode utilisée, l’erreur associée au premier jeu de phases expérimentales est élevée. À partir d’une première valeur des phases, il est possible de calculer une première carte de densité électronique. De façon à minimiser le poids des erreurs dans le calcul de cette carte de densité électronique ( xyz ) , nous utilisons la figure de mérite m comme coefficient de pondération de chaque amplitude. Ainsi, une réflexion associée à une phase de mauvaise qualité, donc avec une figure de mérite proche de zéro, a une contribution faible dans le calcul de la carte de densité électronique. Cette première carte de densité électronique peut être modifiée de façon à
157
Introduction à la biocristallographie
améliorer la précision des phases. L’amélioration de la qualité des phases se traduit par une augmentation de la figure de mérite m moyenne. Nous procédons par itérations successives entre l’espace réciproque et l’espace réel jusqu’à convergence, c’est-à-dire jusqu’à ce que la figure de mérite moyenne n’évolue plus (figure 12.3).
Figure 12.3 Boucle itérative d’amélioration des phases.
Sur cette base d’itérations successives entre calcul de la carte de densité électronique dans l’espace direct et amélioration des phases dans l’espace réciproque, le processus est continu depuis l’obtention de la première carte de densité électronique jusqu’à l’évaluation du modèle final.
12.2 Amélioration des phases Selon la méthode utilisée pour résoudre les phases, les cartes de densité électronique n’ont pas les mêmes caractéristiques. Dans le cas d’une approche par remplacement moléculaire, l’utilisation d’un modèle fait partie du processus même d’obtention des phases. Donc, dès la première carte de densité électronique, un modèle est présent. L’amélioration des phases consiste à corriger le modèle. Dans le cas d’un phasage expérimental, il s’agit d’abord d’améliorer la carte de densité électronique pour être capable de l’interpréter c’est-à-dire de construire le modèle tridimensionnel dans la carte de densité électronique.
158
Chapitre 12. Amélioration des phases et construction du modèle
12.2.1 Modifications de la densité électronique Il existe toutes sortes d’approches statistiques dans le processus d’amélioration des phases basées sur la modification de la densité électronique. Elles sont fondées sur l’exploitation de connaissances a priori de propriétés communes aux cristaux des macromolécules biologiques. Pour illustrer cette étape, nous utiliserons une modification représentative qui est le nivellement de la densité dans les régions du solvant. L’observation d’une section de carte de densité électronique met en évidence des régions denses, riches en électrons et ayant des variations d’intensité importantes : il s’agit des régions dans lesquelles se trouve la protéine. Autour de ces régions, les régions de faible densité correspondent aux canaux de solvant. Puisque le solvant est désordonné, la densité électronique dans cette région devrait être constante. Les pics de densité observés reflètent donc une partie de l’erreur associée aux phases (figure 12.4 haut). Le nivellement de solvant consiste d’abord à dessiner un masque autour des zones denses et à variation rapide d’intensité, puis à
Figure 12.4 Amélioration des phases par nivellement du solvant.
159
Introduction à la biocristallographie
attribuer une valeur constante à ( xyz ) dans les régions extérieures au masque, c’est-à-dire les régions de solvant (figure 12.4 milieu). À partir de cette carte de densité électronique modifiée, nous pouvons calculer un nouveau jeu de facteurs de structures et de phases, qui seront les premières phases améliorées, associées à des figures de mérite plus élevées. Après combinaison avec les données expérimentales, la nouvelle carte, appelée carte nivelée, montre une nette amélioration, même s’il reste des traces de densité dans les zones de solvant dues aux erreurs résiduelles associées aux phases (figure 12.4 bas). Puisque chaque facteur de structure contribue à l’ensemble de la carte ( xyz ) , et que chaque point de ( xyz ) contribue à l’ensemble des facteurs de structure, nous observons surtout que la qualité de la densité électronique dans les régions denses est également améliorée. Cette amélioration va permettre de construire progressivement le modèle tridimensionnel de la molécule étudiée.
12.2.2 Boucle itérative d’amélioration des phases L’objectif est d’avoir une carte de densité électronique de qualité optimale, pour faciliter la construction du modèle tridimensionnel. Pour procéder, nous allons utiliser une approche itérative (figure 12.5) : 1/ La première étape est l’estimation de la distribution des phases et le calcul de la figure de mérite m associée à chaque réflexion ; 2/ La première carte de densité électronique est calculée avec les facteurs de structure mesurés F (hkl ) , les phases calculées et les figures de mérite. Les amplitudes F (hkl ) ne sont pas modifiables puisqu’elles correspondent à la mesure expérimentale ; 3/ La carte de densité électronique est modifiée en vue d’affiner les valeurs des phases ; 4/ À partir d’une carte ( xyz ) modifiée, nous obtenons un jeu de phases calculées par transformée de Fourier ; 5/ Les données calculées sont combinées aux données expérimentales pour limiter le biais introduit lors de la modification de la carte de densité électronique ; 6/ Si les modifications de la carte de densité électronique ( xyz ) sont correctes, alors les phases s’améliorent, et la distribution de probabilité des phases se resserre, la figure de mérite augmente ; 7/ La nouvelle carte de densité électronique calculée avec les phases combinées et les nouvelles figures de mérite est de meilleure qualité, et il est possible de procéder à de nouvelles modifications plus précises. Les étapes 4 à 7 peuvent être répétées par itération successive jusqu’à convergence.
160
Chapitre 12. Amélioration des phases et construction du modèle
F(hkl)
Espace réciproque
0
100 200 300 Angle de phase (°)
5
αcalc(hkl)
αcombinée(hkl)
1
0
α(hkl)
α(hkl), m
100 200 300 Angle de phase (°)
Probabilité
α(hkl), m
6
0
Probabilité
1
1
0
F(hkl)
2 TF-1
4
TF
3
ρ(xyz) modiée
ρ(xyz) = 1/V ∑
7
boucle itérative
∑ ∑ m F(hkl) eiα(hkl) e-2∏i(hx+ky+lz)
Espace direct Figure 12.5 Boucle itérative d’amélioration des phases.
12.3 Construction du modèle moléculaire Les étapes typiques de la construction du modèle moléculaire consistent en : – – – – – –
La squelettisation de la densité ; La construction de la chaîne carbonée ; La construction d’un modèle poly-alanine ; Le choix de la direction de chaîne ; La construction des chaînes latérales ; Plus de résidus construits ? • Oui -> nouvelle carte de densité électronique ; • Non -> Affinement de la structure.
Par exemple, dans le cas d’une carte de densité électronique, après une amélioration des phases à une résolution de 2,5 Å, il n’est pas possible de placer directement des atomes correctement (figure 12.6A). Il est indispensable de procéder par étape : – La squelettisation consiste à calculer la connectivité dans la carte de densité électronique, et à représenter le résultat sous forme de lignes de continuité.
161
Introduction à la biocristallographie
Le squelette formé par ces lignes est un guide pour les étapes suivantes (figure 12.6B) ; – Dans l’exemple de la figure 12.6, on repère clairement une hélice alpha, et selon le logiciel utilisé, on peut positionner automatiquement la chaîne carbonée correspondante (figure 12.6C). À ce stade, nous avons généralement deux possibilités, car le logiciel ne permet pas de trancher entre les deux orientations possibles de la chaîne de N- vers C-terminal ; – Certains logiciels de construction transforment directement le squelette carboné en chaîne polypeptidique de type poly-alanine (figure 12.6D). Si la qualité de la carte le permet, nous observons que l’orientation correcte de l’hélice alpha de N- vers C-terminal est celle qui est compatible avec le positionnement des chaînes latérales. A
B
C
D
Non compatible avec le positionnement des chaînes latérales
Compatible avec le positionnement des chaînes latérales
Figure 12.6 Exemple de construction d’une portion de modèle avec le logiciel Coot de CCP4 (https://www2.mrc-lmb.cam.ac.uk/personal/pemsley/coot/, et https:// www.ccp4.ac.uk/), avec la carte de densité seule en A, la squelettisation en B, le positionnement de la chaine carbonée de plusieurs hélices alpha et de leurs orientations possibles en C, la chaine polypeptidique d’une hélice alpha en D dans une orientation compatible (b) ou non compatible (a) avec le positionnement des chaînes latérales.
162
Chapitre 12. Amélioration des phases et construction du modèle
À partir d’un modèle partiel, à savoir incomplet, il est possible de calculer des facteurs de structure Fcalc et leurs phases. En début de construction, ces données calculées avec le modèle partiel sont combinées aux données expérimentales. Puis, quand la portion de modèle construit est suffisante, seules les phases calculées à partir du modèle sont utilisées. La boucle itérative décrite pour l’amélioration des phases est similaire pour l’étape de construction. Lorsque la construction est avancée, on peut effectuer une transition entre la construction et l’affinement.
163
Introduction à la biocristallographie
Vidéos associées 12. Amélioration des phases et construction du modèle : https://youtu.be/bB38X40dxTg
164
Chapitre 13 Affinement et validation du modèle
L’objectif de l’affinement du modèle moléculaire est qu’il reflète au mieux l’information contenue dans les données de diffraction. Il s’agit d’un processus itératif qui alterne entre des étapes dites de construction (ou reconstruction) qui impliquent des corrections locales du modèle dans l’espace direct, et des étapes dites d’affinement qui visent à minimiser le désaccord entre les données calculées et les données expérimentales dans l’espace réciproque, en utilisant un ensemble de contraintes géométriques appliquées au modèle moléculaire.
13.1 Affinement Dans l’espace réciproque, l’affinement consiste à minimiser l’écart entre les données observées, c’est-à-dire les F (hkl )obs (ou de façon abrégée Fobs ) et les données calculées à partir du modèle tridimensionnel, c’est-à-dire les F (hkl )calc (ou Fcalc ). La finalité, dans l’espace direct, est que le modèle issu de l’interprétation de la carte de densité électronique reflète le mieux possible la structure moléculaire cristalline. Les principaux paramètres que l’on optimise au cours du processus d’affinement, sont, pour chaque atome, la position en x, y, z, et le facteur B, aussi appelé facteur de température et qui rend compte de l’agitation thermique des atomes autour de leur position. Les molécules de solvant, ou les ions liés à la macromolécule ne sont pas nécessairement présents dans toutes les mailles. Par conséquent, nous pouvons également
165
Introduction à la biocristallographie
optimiser leur taux d’occupation, qui peut être inférieur à 1. Enfin, puisque l’affinement est fondé sur la différence entre les Fobs et les Fcalc, le facteur d’échelle entre les deux, doit également être optimisé. Au cours du processus d’affinement, nous suivons l’amélioration du modèle à l’aide d’un facteur d’accord, un facteur R un petit peu différent de celui utilisé à l’étape du traitement des données, qui mesure la différence moyenne entre les Fcalc et les Fobs :
R=
∑hkl Fobs − Fcalc ∑hkl Fobs
(13.1)
Le facteur R est compris entre 0 et 1. Au cours de l’affinement, le modèle s’améliore progressivement, l’écart entre les Fobs et les Fcalc diminue, et le facteur R diminue également. Plus il est bas, meilleur est l’accord entre le modèle et les données. En fin d’affinement, il se situe en général entre 0,15 et 0,25 selon la qualité et la résolution des données. Cependant, les algorithmes utilisés par les logiciels d’affinement cherchent directement à minimiser ce facteur R, ce qui peut induire un biais dans son utilisation. Il peut en effet diminuer sans que la qualité du modèle ne s’améliore réellement. Pour éviter ce problème de biais, on calcule un facteur R en utilisant une petite fraction des réflexions, entre 3 et 10 %, sélectionnées de façon aléatoire en début d’affinement, et systématiquement exclues de tous les processus d’affinement. Ces réflexions ne sont pas « vues » par ces processus, elles sont indépendantes du processus d’affinement. Ce facteur R, appelé R-libre, ou R-free, est calculé de la même façon que le facteur R. Son utilisation correspond à une procédure de validation croisée. En effet, la comparaison du R et du R-free permet de guider l’affinement et la reconstruction. En fin d’affinement, le R-free se situe en général entre 0,20 et 0,30 et l’écart entre le R-free et le R se situe autour de 0,05 et ne doit pas dépasser 0,1. Ici aussi, la résolution et la qualité des données expérimentales influent sur la valeur du R-free. En général, à plus haute résolution, les valeurs de R et R-free sont plus faibles, reflétant le meilleur accord du modèle. Puisque la position x, y, z de chaque atome évolue au cours de l’affinement, un deuxième aspect essentiel vient de la géométrie du modèle moléculaire. Un ensemble de structures tridimensionnelles résolues à très haute résolution a permis d’établir un standard de géométrie des macromolécules biologiques, qui est décrit dans des librairies. De façon à ce que ces librairies soient facilement exploitables, les éléments géométriques des macromolécules sont décrits à partir de blocs moléculaires (voir encadré en introduction sur les différentes catégories de molécules). Ces blocs peuvent être les acides aminés dans le cas des protéines (voir encadré du chapitre 2 sur les structures tridimensionnelles des 20 acides aminés naturels), des bases nucléotidiques dans le cas des acides nucléiques, ou encore des cofacteurs, des ligands, etc. Ils sont reliés entre eux pour former les chaînes polypeptidiques, ou les chaînes nucléotidiques, par exemple. Les librairies contiennent également une description précise des paramètres géométriques des liaisons possibles entre ces blocs. Il s’agit des liaisons peptidiques et des ponts disulfures, dans le cas des protéines, des liaisons phosphodiesters dans le cas des acides nucléiques, etc. Ainsi, au fil de l’évolution du
166
Chapitre 13. Affinement et validation du modèle
modèle et des positions des atomes pendant l’affinement, nous suivons l’écart entre la géométrie du modèle et les standards géométriques sur les longueurs de liaisons, les angles, les angles dièdres, ou les angles impropres (figure 13.1). L’angle dièdre et 234 (figure 13.1), peut-être défini comme l’angle entre deux plans successifs 123 et peut-être décrit comme l’angle dièdre 1-2-3-4. Le long de la chaîne peptidique, chaque acide aminé est engagé dans trois liaisons successives, qui sont associées à autant d’angles dièdres, les angles ω, φ, ψ . L’angle ω est l’angle dièdre Cα-CONH-Cα, il correspond au plan peptidique et sa valeur varie très peu autour de 180°. L’angle φ est l’angle dièdre CO-NH-Cα-CO et l’angle ψ est l’angle dièdre NH-Cα-CO-NH (figure 13.1). Leurs valeurs sont caractéristiques des structures secondaires des protéines et nous verrons un peu plus bas qu’elles sont utilisées pour valider le modèle.
Figure 13.1 (a) : déviations standards des paramètres géométriques par rapport à l’idéal ; (b) : représentation schématique des différents angles permettant de décrire la géométrie d’une chaîne protéique.
13.1.1 Le processus itératif d’affinement Il existe actuellement de nombreuses méthodes d’affinement, qu’il s’agisse de la méthode classique des moindres carrés, de l’incorporation de la dynamique moléculaire, ou encore des algorithmes de maximum de vraisemblance. Nous n’entrerons pas dans les détails ici. Typiquement, au cours d’un cycle d’affinement, on fournit au logiciel : – un fichier de coordonnées contenant les positions x, y, z, les facteurs de température B et les occupations pour chaque atome du modèle. Ces paramètres permettent de calculer F calc (hkl ) ; – les données expérimentales, à savoir les amplitudes des facteurs de structure F obs (hkl ).
167
Introduction à la biocristallographie
Après mise à l’échelle entre les F calc (hkl ) et F obs (hkl ), le logiciel modifie le modèle moléculaire de façon à la fois à minimiser l’écart entre F calc (hkl ) et F obs (hkl ) et à améliorer ou contraindre ses paramètres géométriques. Ainsi, au cours d’un cycle d’affinement il y a un ping pong permanent entre l’espace réciproque et l’espace direct. À la fin d’un cycle d’affinement, on obtient : – un nouveau fichier de coordonnées avec des positions x, y, z, des facteurs B et des occupations affinées ; – un fichier contenant, en plus des données expérimentales F obs (hkl ), des facteurs F calc (hkl ), des phases α et des facteurs de pondération comme la figure de mérite pour chaque indice hkl. Grâce à ces données, nous pouvons calculer des cartes de densité électronique, et observer le modèle affiné à l’aide d’un logiciel graphique. C’est le début de l’étape de l’affinement dite « manuelle », aussi appelée reconstruction. On examine le modèle dans les cartes de densité électronique, on le corrige et on le complète manuellement. Si les modifications manuelles améliorent le modèle, alors les phases et la carte de densité électronique du cycle suivant s’améliorent aussi. Au contraire, une erreur lors des modifications manuelles induit une détérioration des phases, et la carte de densité électronique du cycle suivant se détériore également. L’évolution du R-free permet également de guider ce processus. Une fois effectuées suffisamment de modifications un nouveau cycle d’affinement peut être réalisé (figure 13.2). Espace réciproque ET Espace direct
Fobs(hkl)
Fcalc(hkl), αcalc(hkl) Positions x,y,z modiées
logiciel d'affinement
Fcalc(hkl), αcalc(hkl) R, R-free Paramètres géométriques optimisés
modifications globales
Cycles d'affinement Positions x,y,z modiées
Cartes 2Fo-Fc, Fo-Fc, ... calculées
Espace direct modifications "manuelles" locales
Figure 13.2 Illustration des cycles associés au processus d’affinement.
168
Positions x,y,z, B-facteurs, occupations afnées
Chapitre 13. Affinement et validation du modèle
13.1.2 Les cartes 2Fo-Fc, et Fo-Fc À chaque cycle d’affinement du modèle, on calcule de nouvelles cartes de densité électronique. Nous disposons des amplitudes Fobs mesurées, et des amplitudes et des phases calculées à partir du modèle Fcalc et α calc (figure 13.2). La phase a un poids dominant dans la série de Fourier (voir figure 8.6 et 10.1), si bien qu’une carte calculée avec seulement Fobs et α calc sera presque identique au modèle introduit. Elle est biaisée par le modèle. Pour éviter cela, dans la pratique, on utilise des cartes de différences de Fourier du type :
a × m × Fobs − b × D × Fcalc (13.2)
a et b sont des entiers ; m est la figure de mérite ; D est un deuxième coefficient de pondération qui tient plus particulièrement compte de l’incomplétude du modèle ; m et D sont spécifiques à chaque facteur de structure Fcalc . Les valeurs les plus fréquemment utilisées pour a et b sont (2,1) pour les cartes appelées 2Fo-Fc, et (1,1) pour les cartes appelées Fo-Fc. La carte 2Fo-Fc contient en chaque point x, y, z une densité d’électrons qui doit correspondre à celle de la molécule cristallisée (en bleu dans la figure 13.3). Elle permet d’observer la densité électronique de la molécule et de corriger le modèle. La carte Fo-Fc contient des pics, positifs quand il manque des parties dans le modèle moléculaire (en vert dans la figure 13.3), ou négatifs quand ils correspondent à des parties sur-modélisées, c’est-à-dire qu’on a positionné un résidu ou un atome là où il ne devrait pas y en avoir.
Fo-Fc 2Fo-Fc
Figure 13.3 Cartes de densité électronique 2Fo-Fc (bleu) et Fo-Fc positive (vert) qui ont permis de construire le modèle.
169
Introduction à la biocristallographie
13.1.3 Limites de l’affinement Quelle que soit la méthode d’affinement utilisée, pour un résultat fiable, le nombre de paramètres que l’on peut affiner ne doit pas dépasser le nombre de données dont on dispose. Or, ce nombre de données, c’est-à-dire le nombre de Fobs , dépend : – du pourcentage de données que nous avons collectées (la complétude) ; – de la résolution maximale des données ; – du pourcentage de solvant, qui affecte directement le nombre de données pour une même résolution. Par conséquent, à basse résolution, le nombre de données expérimentales est faible, et il est nécessaire d’introduire des contraintes afin de restreindre le nombre paramètres à affiner, et conserver un nombre de données mesurées supérieures au nombre de paramètres à affiner. Au contraire, à très haute résolution nous pouvons libérer les contraintes géométriques et affiner plus de paramètres (figure 13.4). Sans être un protocole strict, en fonction de la résolution maximale des données expérimentales, l’affinement permet : – En deçà de 3,8 Å, d’affiner les coordonnées x, y, z des résidus ou des domaines par blocs rigides, la géométrie est contrainte par domaine ; – Entre 3,8 et 3,2 Å de résolution : d’affiner les coordonnées atomiques x, y, z individuelles, et des groupes de facteur de température, généralement par domaine globulaire. Le poids sur les contraintes géométriques est élevé, c’est-à-dire qu’on autorise peu de fluctuations autour des valeurs attendues ; – Entre 3,2 et 2,7 Å de résolution : d’affiner les coordonnées x, y, z, les facteurs de température individuels, des tenseurs anisotropes par domaine (appelés TLS), quelques molécules de solvants stables ; Résolution > 3,8 Å 3,2 - 3,8 Å 2,7 - 3,2 Å
2,0 - 2,7 Å
≤ 2,0 Å ≤ 1,2 Å
Afnement Coordonnées par blocs rigides
Coordonnées atomiques x, y, z Facteurs de température par domaine
Coordonnées atomiques x, y, z Facteurs de température individuels B Tenseurs anisotropes par domaines (TLS) Quelques molécules de solvant stables x, y, z B individuels TLS Molécules de solvant x, y, z + conformations alternées B individuels anisotropes TLS Molécules de solvant On commence à ajouter des hydrogènes
Figure 13.4 Résumé des paramètres qui peuvent être affinés en fonction de la résolution, c’est-à-dire en fonction de la quantité de données expérimentales.
170
Chapitre 13. Affinement et validation du modèle
– Entre 2,7 et 2,0 Å : d’affiner les coordonnées x, y, z, les B individuels, des TLS, environ autant de molécules de solvant que de résidus dans la molécule ; – Au-delà de 2,0 Å : d’affiner les coordonnées x, y, z, plusieurs conformations alternées d’un résidu, les B individuels anisotropes, les TLS, et un nombre de molécules de solvant entre autant et 1,5 fois le nombre de résidus de la macromolécule ; – À partir de 1,2 Å : On commence à voir les hydrogènes présents dans la molécule. Pour illustrer le problème du nombre de données et de la résolution, reprenons l’hélice du chapitre précédent (figure 12.6) et observons-la dans des cartes de densité électronique à différentes résolutions (figure 13.5) : – À 5 Å de résolution, on peut tout juste positionner les hélices alpha par bloc rigide ; – À 4 Å de résolution, on place la chaîne principale de l’hélice ; – À 3,5 Å de résolution, on oriente correctement l’hélice alpha et on commence à placer des chaînes latérales ; – À 3 Å de résolution, on place les chaînes latérales sans ambiguïté ; – À 2,5 Å de résolution, toutes les chaînes latérales sont positionnées. Selon les informations biologiques recherchées, une structure à 5Å de résolution reste intéressante, par exemple pour connaître l’allure générale d’une protéine ou la zone d’interaction globale entre deux macromolécules. À partir de 2,5Å de résolution la finesse de la description est généralement optimale en biologie, par exemple pour décrire des réseaux d’interactions.
Figure 13.5 Niveau d’affinement selon la résolution des données.
171
Introduction à la biocristallographie
13.2 Validation de la structure tridimensionnelle Quand le R-facteur se situe entre 0,15 et 0,25, le R-free entre 0,20 et 0,35, qu’ils n’évoluent plus, et que la carte Fo-Fc ne montre plus de pic significatif de densité positive, alors la convergence de l’affinement est atteinte, et il est temps d’évaluer la structure et de compléter le tableau de statistiques qui accompagnera la structure et la publication scientifique. Ce tableau synthétise un ensemble de paramètres cristallographiques et géométriques qui évaluent d’une part l’accord entre le modèle atomique et les données expérimentales dont il est issu, d’autre part, la qualité du modèle atomique par comparaison à des standards établis par la communauté scientifique. Notons qu’une certaine « tolérance » est admise pour certains de ces critères, afin de tenir compte de la résolution maximale des données cristallographiques à partir desquels le modèle a été construit. La première partie du tableau renseigne sur les données expérimentales et leurs conditions d’acquisition : la longueur d’onde à laquelle elles ont été enregistrées, le groupe d’espace, les paramètres de maille, les limites de diffraction, le facteur d’accord des données de diffraction, le nombre de réflexions, le rapport signal sur bruit, la complétude des données et leur redondance. Pour chaque paramètre, et pour valider la résolution maximale choisie, la valeur entre parenthèses fait référence au même paramètre pour la tranche de résolution la Data collection Wavelength (Å)
0.98
Unit cell : a, b, c (Å) α, β, 𝛄𝛄 (°)
53.8, 104.8, 85.3, 90, 94.4, 90
Space-group
P21
Diffraction limits (last shell) R-meas CC(1/2) Number of unique reections I/σ Completeness Redundancy
2.44 Å (2.63 Å – 2.44 Å) 0.068 (0.664) 99.9 (54.8) 33979 (5718) 14.29 (2.26) 0.965 (0.794) 7.8 (7.5)
Resolution R-factor R-free Number of protein atoms Number of water molecules Figure of merit RMSD bond lengths (Å) RMSD bond angles (°) PDB entry
2.44 Å 0.193 0.237 6938 94 0.7813 0.004 0.976 4RQI
Renement
Données
Modèle
Figure 13.6 Exemple de tableau de statistiques (en anglais) dans le cas d’une structure résolue par remplacement moléculaire.
172
Chapitre 13. Affinement et validation du modèle
plus haute. Dans la deuxième partie du tableau se trouvent les statistiques associées à la qualité du modèle. Dans le cas d’un remplacement moléculaire, généralement ce sont directement les valeurs associées à l’affinement du modèle qui valident la solution de remplacement moléculaire. Ainsi, on retrouve : la résolution, le R-factor, le R-free, le nombre d’atomes inclus dans le modèle, le nombre de molécules d’eau, la figure de mérite moyenne, les déviations géométriques par rapport aux valeurs de référence et le code attribué par la PDB lors de la déposition du modèle et des facteurs de structure, qui doit impérativement être obtenu avant publication (figure 13.6). Dans le cas d’un phasage expérimental, par exemple par la méthode MAD avec des données provenant de différents cristaux et de différents groupes d’espace, le tableau de statistique comporte davantage d’informations (figure 13.7). Data collection
Native Monoclinic Wavelength (Å) 0.98 Space-group P21 Unit cell : a, b, c (Å) a=106.9 b=136.8 α, β, 𝛄𝛄 (°) c=140.5 α=𝛄𝛄=90° β=97.3° Diffraction limits (last shell) 99-3.5 99-3.55 50-3.15 40-2.7 R-meas 0.097 (0.858) 0.093 (0.801) 0.071 (0.943) 0.09 (0.975) CC(1/2) 99.9 (61.2) 99.8 (57.3) 99.9 (56.6) 99.9 (73.1) Number of unique 8068 7136 7994 110121 I/σ 32.2 (1.2) 34.8 (1.3) 11 (1.09) 12.4 (1.6) Completeness 100% 100% 98% 100% Redundancy >13 >13 3 3 Phasing Average gure of merit 0.3724 Renement R-factor R-free Total number of atoms Number of :
RMSD bond lengths (Å) RMSD bond angles (°) PDB entry
Remote 0.9762
MAD
Inection 1.0087 I432 a=b=c=187.73 Å α =β=𝛄𝛄=90°
Protein atoms Carbohydrate atoms Sulfate ions atoms Water molecules
Cubic 0.98
0.245 0.315 18548 15976 1718 105 749 0.011 1.634 1YWH
Figure 13.7 Exemple de tableau de statistiques (en anglais) dans le cas d’une structure résolue par la méthode MAD, avec plusieurs cristaux différents.
173
Introduction à la biocristallographie
Indépendamment des données expérimentales, les paramètres géométriques du modèle permettent d’évaluer sa qualité. Parmi les critères fréquemment utilisés, dans le cas des protéines, le diagramme de Ramachandran, développé en 1963 par G.N. Ramachandran, permet de visualiser les valeurs des angles dièdres φ et ψ (figure 13.1), et de vérifier qu’elles se situent dans des zones compatibles avec les structures secondaires des protéines (figure 13.8). Enfin, le fichier PDB lui-même comporte beaucoup d’informations, et pour les structures récentes, en plus du fichier de coordonnées, un fichier de réflexions est associé au code PDB. Ainsi, les coordonnées du fichier PDB permettent de calculer des Fcalc et des phases, et le fichier de réflexion fournit les Fobs. Il est donc possible de calculer une carte de densité électronique pour observer et évaluer la structure tridimensionnelle d’intérêt.
Figure 13.8 Diagramme de Ramachandran, avec les régions correspondant aux principales structures secondaires dans les régions les plus favorisées en rouge, les régions autorisées supplémentaires en orange, les régions généreusement autorisées en jaune, et les régions interdites en blanc.
174
Chapitre 13. Affinement et validation du modèle
Vidéos associées 13. Affinement, interprétation et évaluation des modèles : https://youtu.be/BpSx_vsJnak
175
Pour aller plus loin
Quelques livres Biochimie (7e édition) Jeremy Berg, Lubert Stryer, John L. Tymoczko. Editions Lavoisier MSP. Parution Janvier 2013.ISBN 10 : 2257204271 / ISBN 13 : 9782257204271. Version originale en anglais : Biochemistry (ninth edition) Jeremy M. Berg, Lubert Stryer, John Tymoczko, Gregory Gatto. Edition MACMILLAN (2019). ISBN 10 : 1319114652 / ISBN 13 : 9781319114657 Lehninger Principles of Biochemistry : International Edition (7e édition). David L. Nelson, Michael M. Cox. Edition W.H.Freeman & Co Ltd (2017). ISBN10 : 9781319108243 / ISBN-13 : 978-1319108243 The Biophysical Chemistry of Nucleic Acids & Proteins. Thomas E. Creighton. Édition Helvetian Press, 2010. ISBN 10 : 0956478115 / ISBN 13 : 9780956478115 Crystallography Made Crystal Clear : A Guide for Users of Macromolecular Models (Complementary Science) (English Edition). Gale Rhodes. Academic Press ; Édition : 3rd edition (16 février 2006). Collection : Complementary Science. ISBN-10 : 0125870736 / ISBN-13 : 978-0125870733 Biomolecular Crystallography : Principles, Practice, and Application to Structural Biology. Bernhard Rupp. Edition Garland Science (2009). ISBN-10 : 0815340818 / ISBN-13 : 978-0815340812 International Tables for crystallography, ISBN : 978-0-470-68575-4 doi : 10.1107/97809553602060000001, volumes A to H, https://it.iucr.org/
177
Introduction à la biocristallographie
Principles of proteins X-ray crystallography. Jan Drenth. Springer-Verlag New York, 3e édition (2007). ISBN 978-1-4757-3092-0 doi: 10.1007/0-387-33746-6 Fundamentals of crystallography. Carmelo Giacovazzo. OUP Oxford, 3e édition (10 février 2011). ISBN-10 : 0198509588 / ISBN-13 : 978-0198509585
Quelques sites Association Française de cristallographie : lien vers les sites qui fournissent des cours en ligne de cristallographie : https://www.afc.asso.fr/axes-transverses-main/ enseignement-de-la-cristallographie CCP4 : https://www.ccp4.ac.uk Synchrotron SOLEIL : https://www.synchrotron-soleil.fr/fr Synchrotron européen de Grenoble (ESRF) : https://www.esrf.eu/ Protein Data Bank : https://www.rcsb.org/ Site européen de la Protein Data Bank : https://www.ebi.ac.uk/pdbe/ Seuils d’absorption des éléments de la classification périodique : http://www.bmsc. washington.edu/scatter/AS_periodic.html Cours « Structure de la matière condensée » de Sylvain Ravy : https://www.lps.upsud.fr/spip.php?article531&lang=fr
Quelques articles fondateurs The detection of sub-units within the crystallographic asymmetric unit (1962) M. G. Rossmann and D. M. Blow. Acta Cryst. vol 15, pp 24-31. DOI : https:// doi.org/10.1107/S0365110X62000067 Determination of macromolecular structures from anomalous diffraction of synchrotron radiation (1991) WA Hendrickson. Science vol 254, pp 51-58. DOI : https://doi.org/10.1126/science.1925561 Sparse matrix sampling : a screening method for crystallization of proteins (1991) J. Jancarik and S.-H. Kim. J. Appl. Cryst. vol 24, pp 409-411. DOI : https:// doi.org/10.1107/S0021889891004430 Phase problem in X-ray crystallography, and its solution (2001) K. Cowtan. Encyclopedia of life science, Macmillan Publishers Ltd, Nature Publishing Group. http://people.bu.edu/mfk/restricted566/phaseproblem.pdf The phase problem (2003) G. Taylor. Acta Cryst. vol D59, pp 1881-1890. DOI : https://doi.org/10.1107/S0907444903017815 An introduction to molecular replacement (2008) P. Evans & A. McCoy. Acta Cryst. vol D64, 1–10. https://journals.iucr.org/d/issues/2008/01/00/ba5108/ ba5108.pdf
178
Pour aller plus loin
Quelques vidéos Les séries de Fourier et la cristallographie : https://www.dailymotion.com/video/ x27u551 Quelques animations de description du rayonnement synchrotron et ses applications : https://www.synchrotron-soleil.fr/fr/videos/soleil-une-source-de-lumiere-pour-larecherche-vfstf-et-lsf-13 https://www.synchrotron-soleil.fr/fr/videos/les-lumieres-de-soleil-vfstf-et-lsf-23 https://www.synchrotron-soleil.fr/fr/videos/quand-la-lumiere-explore-la-matierevfstf-et-lsf-33 https://www.synchrotron-soleil.fr/fr/videos/le-synchrotron-soleil https://www.synchrotron-soleil.fr/fr/videos/proxima-1-etude-des-proteines-parcristallographie
Vidéos du MOOC “Voyage au cœur du vivant avec des rayons X : la cristallographie.” Applications : Le monde des virus : https://youtu.be/vP3lWfBekDU Ces mutations qui rendent malades : https://youtu.be/36cKKLqG54Q De la photosynthèse aux bioénergies : 1- La photosynthèse : https://youtu.be/ sEPm37VRePs De la photosynthèse aux bioénergies : 2- Vers les bioénergies : https://youtu. be/5UlLIIqUoSU Introduction : 1- Qu’est-ce qu’une structure tridimensionnelle : https://youtu.be/YyqYkiPcyGI 2- Les méthodes de biologie structurale : https://youtu.be/BTgLGw5dD5A 1.1 Histoire de la cristallographie aux rayons X : les débuts : https://youtu.be/ uBMipJbzz48 1.2 Histoire de la cristallographie aux rayons X : suite : https://youtu.be/ Xzgv5wtgcco 1.3 Le rôle du CCP4 : https://youtu.be/unlDN2HfLkY 2.1 Les prérequis : connaitre son échantillon : https://youtu.be/rTYO0hsUGiU 2.2 Clonage, production, purification des échantillons : https://youtu.be/ RhBaWJjxFlw 2.3 Visite du laboratoire : la préparation des échantillons : https://youtu.be/ ZA-nCSOloXE
179
Introduction à la biocristallographie
3. 4.
Interaction lumière / matière : https://youtu.be/HiBrbKFsX4o Les caractéristiques d’un cristal et la loi de Bragg : https://youtu.be/ YjKhznck8f0 5.1 Cristallisation : principes généraux : https://youtu.be/CC7m2JM4yu8 5.2 Cristallisation : Approches, plateformes : https://youtu.be/dgPcErIBCEI 5.3 Visite du laboratoire : cristallisation : https://youtu.be/VUxspwIdyXc 6.1 Comment générer des rayons X : https://youtu.be/8SLr51Iblk8 6.2 La congélation des cristaux : https://youtu.be/rWG2Rqx2BEc 6.3 L’environnement du cristal dans la cabane expérimentale : https://youtu.be/ l69Ebuj0SaU 7.1 Acquisition des données : la stratégie de collecte : https://youtu.be/ EUHxyiAMzXo 7.2 Le traitement des données de diffraction : https://youtu.be/AnVEJ_oSq1I 7.3 L’analyse des données de diffraction : https://youtu.be/jqFEnTkGbkE 7.4 Les approches du futur : https://youtu.be/6CFbzAtTOKY 8.1 Introduction à la transformée de Fourier : https://youtu.be/mZ2fDZb9l2o 8.2 La transformée de Fourier et le problème de phase : https://youtu.be/edSaxcHdTBU 9. La fonction de Patterson : https://youtu.be/gyxrLUHtGNo 10. Le remplacement moléculaire : https://youtu.be/5w6EY-ofCIA 11.1 Phasage expérimental : le remplacement isomorphe : https://youtu.be/ bB7tYIf9WBM 11.2 Phasage expérimental : la diffusion anomale : https://youtu.be/ NdF70PTDAQU 12. Amélioration des phases et construction du modèle : https://youtu.be/ bB38X40dxTg 13. Affinement, interprétation et évaluation du modèles : https://youtu.be/ BpSx_vsJnak
180