新浪网

X射线晶体学中的数据收集与处理

物理期刊网

关注

确定不再关注此人吗

背景

中国科学院物理研究所2019级在读研究生李增茹于2020年7月2日至8日,赴上海光源开展与X射线晶体学相关的实习工作,主要学习蛋白质晶体的衍射数据收集和数据处理,并于7月3日至4日在上海光源蛋白质微晶体结构光束线站(BL18U1)进行了实际的数据收集实验。本次实习工作在上海科技大学姚德强老师的指导下进行,实习报告在物理所丁玮老师的指导下完成。

前言

随着X射线晶体学的各种理论以及实验设备的蓬勃发展,X射线晶体学已成为确定蛋白质结构的主要方法。目前为止,在蛋白质数据库(Protein Data Bank, PDB)中已收录超过15万个蛋白质结构,其中超过13万由X射线晶体学方法解析,如表1所示,由此可见X射线晶体学在确定蛋白质结构中的主导地位。在这些使用X射线晶体学方法解析的结构中,很大一部分是使用同步辐射的晶体学衍射手段确定的。据Biosync网站统计,由该方法确定的结构中,85.1%使用同步辐射,且每年的比重在逐年上升,近年均已超过95%。

表 1 实验方法和分子类型的PDB数据分布

顾名思义,利用X射线晶体学方法进行结构解析,首先需要有理想的X射线光源。本次实验使用的同步辐射光源便是其中最为重要的一种,它能提供光强极强、准直性良好和波长可调的X射线,这些特性对于生物大分子的结构测定非常有利乃至至关重要。

图 1 上海光源

1. X射线的产生

真空中运动的带电粒子受到加速度的作用将辐射电磁波。其中,波长在0.1~100 Å范围的电磁波称为X射线。通常把能量较高穿透性较强的X射线称为硬X射线,波长在0.1~1 Å之间。波长在1Å以上的则称为软X射线。目前用于生物大分子结构解析的X射线,其来源有两种,实验室光源和同步辐射光源。

图 2 电磁波谱

1.1 实验室光源

实验室常用密封靶和转靶产生X射线,高速电子与靶物质相互作用产生的X射线由韧致辐射产生的连续X射线以及特征X射线两部分组成:使阴极在真空中运动的电子在负高压的作用下高速撞击阳极金属靶,电子受到与运动方向相反的加速度,产生韧致辐射,出现具有最短波长的连续X射线谱;当加速电压高于一定数值时,能量足够高的电子将原子内壳层的电子撞击出原子,原子将处于亚稳态,外壳层电子发生跃迁成为内壳层电子,同时释放出X射线,X射线的波长取决于两能级差,不同元素的电子结构不同,特征X射线的波长也不同。

图 3 密封靶[1]

图 4 转靶

从外壳层跃迁至最内壳层(n = 1)的电子辐射的X射线 ,称为K系:从n = 2壳层跃迁至n = 1壳层的为Kα,由于存在自旋轨道耦合,会产生两条波长很相似的X射线,Kα1和Kα2,对于大多数元素而言,K系是辐射最强的X射线,一般Kα1:Kα2的强度比为2:1;当从n = 3壳层跃迁至n = 1的为Kβ,由于存在自旋轨道耦合,会产生若干波长很相似X射线,由于能量跨度大,Kβ的波长更短。

图 6 电子跃迁产生特征X射线

常用的靶材有Cr、Cu、Mo等,其特征波长如表2所示。

表 2 几种常用靶材的特征波长

世界上著名的实验室衍射仪包括日本理学Rigaku和德国布鲁克AXS两家公司的衍射仪。

图 7 Rigaku X射线衍射仪SmartLab

图 8 布鲁克X射线衍射仪D8 ADVANCE

1.2 同步辐射光源

同步辐射也是常用的X射线发生方法:真空中的电子在加速环中被加速至接近光速,这些具有相对论效应的带电粒子在二极磁场作用下偏转时,会沿着偏转轨道切线方向发射连续谱的电磁波辐射,称为同步辐射光,产生和利用同步辐射光的科学装置称为同步辐射光源。

同步辐射光源由带电粒子注入系统、储存环、用于改变粒子运动方向的磁铁装置以及实验站组成。

图 9 同步辐射光源示意图

磁铁装置通常有弯铁、波荡器以及扭摆器。

图 10 磁铁装置

同步辐射光具有宽谱、高强度和高亮度、优良的脉冲时间结构、高偏振、高准直和准相干性以及高纯净的优点。

1.2.1 同步辐射光源的发展

1947年第一次在电子同步加速器观察到同步辐射光,20世纪50年代发展了第一代同步辐射光源,在高能物理加速器和储存环上寄生运行,如北京BSRF;20世纪70年代中期发展了第二代同步辐射专用光源,如合肥HLS;20世纪80~90年代发展了第三代同步辐射光源,其特征是大量使用特殊设计的插入件(波荡器和扭摆器),使电子束运动方向发生周期性变化,从而叠加得到亮度增加上万倍的同步辐射光源。

图 11 同步辐射光源的发展

世界上同步辐射光源利用的电子能量的范围依照其所产生的同步辐射中最强的光谱区分为三段,即~0.8 GeV、~2 GeV、~6 GeV。由弯转磁铁引出的光子特征能量分别为0.5 keV(真空紫外线)、2.5 keV(软X射线)、25 keV(硬X射线)。

已经建成的第三代同步辐射光源中,仅有3 台能量超过6 GeV,即欧洲同步辐射光源ESRF(6 GeV)、美国先进光子源APS(7 GeV)以及日本的SPring8(8 GeV),就电子能量上海光源SSRF位列第4(3.5 GeV),其余还有美国的先进光源ALS(1.9 GeV)以及国家同步辐射光源二期NSLS-II(3 GeV)、英国“钻石”同步辐射光源DIAMOND(3 GeV)、瑞士同步辐射光源SLS(2.4 GeV)、加拿大光源CLS(2.9 GeV)等。

图 12 欧洲同步辐射光源ESRF

图 13 美国先进光子源APS

图 14 日本SPring8

图 15 英国“钻石”同步辐射光源DIAMOND

图 16 瑞士SLS

X射线自由电子激光又称第四代同步辐射光源,自由电子激光是加速器产生的高能自由电子通过周期性变化的磁场,把相对论电子束的能量转换成相干辐射的激光输出,有别于传统的束缚电子的能级跃迁而产生的激光,具有极高的峰值亮度,高于第三代同步辐射光源8~10个数量级,飞秒到阿秒的超短脉冲以及极好的相干性,如位于上海的软X射线自由电子激光试验装置SXFEL。

图 17 SSRF和SXFEL鸟瞰图

1.2.2 上海光源

上海光源SSRF为第三代同步辐射光源,由全能量注入器、电子储存环、光束线和实验站组成。

图 18 上海光源构成

全能量注入器包括一台150 MeV电子直线加速器,一台周长180 m的3.5 GeV增强器。电子直线加速器将电子束加速至150 MeV,经低能输运线注入增强器,将电子束能量提高至3.5 GeV,注入电子储存环。

图 19 150MeV电子直线加速器

图 20 3.5GeV增强器

电子储存环周长432米,用以储存3.5MeV电子束并发出高品质的同步辐射光,由注入、磁铁、高频、电源、真空、束测、插入件和控制等系统组成,储存环中电子束沿轨道循环运动,在磁场作用下改变运动方向时释放同步辐射,运动中电子束损失的能量由高频系统补充。

图 21 3.5GeV电子储存环

光束线沿着电子储存环的外侧分布,通过特定的精密光学系统,按需要筛选和处理同步辐射光,输送到实验站,照射到样品,由各种仪器记录反应信息,获得相应的谱线或图像。

图 22 光束线和实验站

SSRF可建设60多条光束线,应用于物理、化学、生物、环境、地质、医药等众多学科的相关研究工作。SSRF具有的蛋白质晶体结构线站包括首批建造的基于插入件的生物大分子晶体学光束线实验站,以及新建设的蛋白质设施5线6站。

同步辐射应用于蛋白质晶体学研究时的主要优点包括:相对于普通X射线管发生的X射线,其强度可提高几个数量级,而高强度对于非常小的蛋白质晶体或具有极大单位晶胞的大分子十分有利;光束的高准直性低发散性将产生更锐利的衍射斑点;波长可调,满足对不同波长的需要,短波长的X射线可以减少样品的吸收效应和辐射衰减效应,长波长的X射线可以增强某些特殊原子(如S原子)的反常散射效应;可以完成时间分辨的蛋白质晶体学研究。

2. X射线研究晶体内部结构的物理原理

X射线是波长为0.1~100 Å的电磁波。在晶体结构分析中所用的X射线,其波长范围一般在0.5~2.5 Å,与晶体点阵的阵点平面间距大致相当,在此范围内晶体内部结构,原子或分子、离子的三维周期排列可作为光栅,通过干涉对单个散射效应进行放大,从而增强信号强度。当波长远远超过2.5 Å时,样品和空气对X射线的吸收太大,晶面间的干涉难以发生;波长远小于0.5 Å,X射线经晶体内部结构所产生的干涉将集中在低角度区,干涉花纹相互重叠,不易分辨。因此,通常使用波长为1~2 Å的硬X射线进行晶体结构分析。

使用X射线研究晶体内部结构,是通过分析X射线经过晶体后的衍射花样,获得结构的基本信息。

图 23 衍射图

而衍射花样的产生依据的基本原理是Laue方程。Laue将三维原子阵列的衍射描述为一组方程:

矢量a、b、c分别为原子阵列沿非共面三个方向上的单位基矢,矢量S0为X射线入射方向的单位矢量,矢量S为散射方向的单位矢量,h、k、l为整数。Laue方程组指出了构成三维点阵的晶体内部原子或离子、分子等之间散射干涉得以充分加强,晶体衍射得以发生的条件。

图 24 三维原子阵的散射干涉锥,满足三维Laue条件的示意图[2]

可以使用一个方程式来表达入射方向和衍射方向,Laue方程组将改写为:

其中,矢量a*、b*、c*是晶体倒易点阵的3个基本单位倒易矢量,ha*+kb*+lc*为倒易阵点的倒易矢量。倒易空间可以用来描述衍射空间,衍射点相当于倒易空间的点阵点。抽象的倒易点阵向量与实空间晶体点阵互为倒易关系。在倒易空间中,一个矢量对应实空间中的一组晶面,方向为晶面的法线方向,大小为晶面间距的倒数。倒易点阵只是解释衍射现象的数学形象,没有实在的物理意义。

以矢量表示倒易点阵中从坐标原点到指数为的倒易阵点的矢量:

可将Laue方程组进一步改写为:

三个矢量S/λ、S0/λ和H构成一个矢量等腰三角形。

图 25 Laue方程中3个矢量构成的矢量等腰三角形[2]

O为倒易点阵的坐标系原点。矢量S0和S为单位矢量,以矢量S0的起点为中心画一个半径为1/λ的球面,称为反射球,又称Ewald球。球面与倒易点阵相交的点满足衍射条件,hkl衍射方向与矢量方向S一致。同时有m个倒易阵点落在球面上,则将有m个衍射发生。反射球与倒易点阵以O点为中心作任意的相对旋转运动。当X射线到晶体上的角度改变时,相当于倒易点阵相对于反射球以重合点O为中心转动。

图 26 矢量三角形在反射球与倒易点阵相互作用中的表达[2]

如果X射线入射方向S0不动,即反射球固定不动,则衍射方向决定于倒易阵点的倒易矢量H。在3个矢量所构成的等腰三角形中作一垂直于H且通过起始点C点的平面AB,那么它必然等分S/λ与S0/λ的夹角。AB平面平行于矢量H代表的晶面。

图 27 X射线对晶体的衍射在反射球上的描述[2]

晶体或晶体点阵被认为在反射球中心C。从等腰三角形中可以导出Bragg定律。Bragg定律在数学上与Laue方程组一致,Bragg定律描述晶体晶面的反射,发生衍射时所有晶面间的光程差都为入射X射线波长的整数倍:

d为晶面间距,θ为入射线与相应晶面的夹角,n为整数的衍射级数,λ为入射波长。

图 28 Bragg反射方程的表达[2]

可以使用Ewald球来直观描述满足Bragg方程的衍射点分布。倒易点阵的原点位于Ewald球上,在数据收集的过程中,由于晶体沿Z轴旋转,对应的倒易点阵也在变动,其中,与Ewald球面相交的点,均满足Bragg方程,因此,衍射点将出现在原点与该点的延长线与探测器的交点上。

图 29 Ewald球面与倒易点阵相交的点发生衍射

根据X射线衍射图样的强度与分布,可以通过不同的方法,推算衍射波的振幅和相位。随后利用傅里叶变换还原出蛋白质分子的电子密度分布,建立分子模型并不断进行修正,最终得到晶体的结构信息。

3. X射线晶体学解析结构的一般流程

首先在实验室里利用一系列的生化实验得到高浓度的蛋白质溶液,然后通过结晶实验使蛋白质溶液在过饱和状态下生长成蛋白质晶体,然后将晶体拿到衍射实验站,用X射线照射该晶体,收集衍射图样,经过数据处理将实空间衍射点坐标转换为倒易空间的衍射指标,并通过积分得到衍射点的强度,并进行振幅的还原。通过衍射实验只能得到衍射强度,为了解决相位问题,发展了很多的方法,包括分子置换法、同晶置换法、反常散射法、直接法等。分子置换法需要知道未知目标蛋白的同源蛋白结构,并以同源蛋白的结构为模型,通过旋转和平移,建立未知目标蛋白的结构模型。同晶置换法需要制作重原子衍生物,利用衍生物和母体蛋白衍射强度的差异来求解相位。反常散射法需要利用反常散射效应引起的强度的微小差异来解决相位问题,要求数据的精确度比较高。随着蛋白质结构数据库的不断扩大,分子置换法成为解析蛋白质结构的重要手段。而对于没有同源蛋白结构的蛋白质来说,反常散射法有着巨大的优势。在得到相位信息之后,结合实验中获得振幅信息,可以计算晶体的三维电子密度图,进而可建立分子模型并进行修正,最终得到蛋白质晶体的三维结构信息。

以下,将以本次实验为例,具体讲解上述步骤中的数据收集和结构解析过程:

3.1 数据收集的预报步骤

挑选合适的晶体,并使用液氮低温冷冻、安装晶体,以减少数据收集时产生的吸收效应,增加其耐受辐射的能力。正式的数据收集前,先进行实验条件的初步检查:选择合适的晶体至探测平面的距离、X射线波长,有时还需要调整晶体的取向,然后在一个较小范围内(如10°)连续转动晶体收集衍射点,检查衍射点的强度和形状。不合适的晶体应该放弃,重新挑选晶体。连续收集时,根据具体情况可对回摆角度、画面张数进行设置。例如,根据Laue群中的对称性分析,可以只收集倒易空间中非对称部分的衍射数据,然而在实际操作中,因探测器的收集效率大大提高,数据收集耗时明显减少,应收取尽可能多的画面张数,并在后期进行数据处理时进行挑选。

在实际蛋白质晶体学研究中,常见的晶体外形尺寸为0.3~0.5 mm。对于小于0.2 mm的外形尺寸较小的晶体,单位晶胞数目少,衍射强度弱,为了获得较高分辨率的衍射数据,应尽可能使用同步辐射。随着同步辐射光源的普及与发展,对晶体外形尺寸大小的要求逐渐降低,目前处理的晶体很多都在几十微米。蛋白质晶体主要由轻元素组成,而且晶胞体积普遍较大,由于晶体的衍射强度与晶胞体积的平方呈反比,因此,需要利用同步辐射的高强度、高准直和低发散特性,提高晶体衍射光斑的锐利度以及数据的分辨率。此外,使用外形尺寸较大的晶体,可以增大衍射强度,并使衍射斑点的强度分布更为集中,故应尽量挑选外形好、有代表性的晶体,进行衍射数据的收集。

3.2. 衍射数据收集

此次实验使用的是单色X射线的回摆法。由同步辐射发出的X射线具有一定的宽度,经过单色器进行波长的选择,将单色X射线照射到晶体上产生衍射,通过探测器记录衍射图样。采用回摆法时,晶体围绕着某一个垂直X射线入射方向的轴小角度旋转或者回摆,衍射点被记录在面探测器上。这相当于Ewald球在倒易空间旋转,球面扫过的倒易点均满足布拉格反射条件,就会发生衍射。反射球不可能与倒易点阵相交的区域称为衍射盲区。

图 30 回摆法[3]

探测器的不断发展提高了数据收集的效率和质量,由计数器、胶片、多丝面探测器、象板探测器、电荷耦合装置(Charged Coupled Device, CCD),发展至Pilatus探测器,具有极短的读出时间,可实现无快门的快速数据采集,保证快速的数据获取,SSRF蛋白质微晶体结构线站BL18U1采用的就是Pilatus3 6M探测器。

3.2.1 晶体至探测平面的距离

由衍射点可估计晶体至探测平面的距离:

D为晶体至探测平面的距离,ΔR为衍射点至中心的距离,α为半张角,此处为2θmin。晶体至探测平面的距离越小,探测器平面上相邻两个衍射斑点中心之间的距离也越小,有可能导致斑点的重叠,使得强度测量误差增大。预估分辨率极限,晶体至探测平面的距离越大,画面所包含的分辨率极限越小。需要在测试时对晶体至探测平面的距离进行相应的调整。本次实验测试350 mm以及400 mm距离,最终选择400 mm距离进行数据收集。

3.2.2 波长

对X射线的波长进行选择:衍射强度正比于波长的三次方,波长较长的X射线可以增大衍射强度,但同时带来较高的吸收效应;同步辐射尽可能使用较短波长,如接近1 Å,可减少吸收效应,同时注意衍射斑点在空间的分布会更密集,有更大几率产生斑点的重叠;对于不同的相位求解方法有时需要选择特定的波长,反常散射法用于解析没有同源结构的蛋白质,需要确定X射线吸收曲线,根据吸收曲线,单波长反常散射选择波峰处,多波长散射选择波峰处波长、波形变化处波长以及高能偏离波长,每张画面依次收集三个波长的衍射数据。本次实验使用波长为0.9792,对应硒元素的吸收峰。

3.2.3 晶体对称轴与入射X射线的相对取向

对称轴与入射线的相对取向,实际选取随机的晶体取向;较高对称性晶体选取合适的取向较大程度弥补衍射盲区问题;使用回摆法收集反常散射数据,由于蛋白质晶体的辐照衰减效应比较严重和回摆法衍射盲区的存在,必须仔细分析晶体的取向,应使每个Friedel反射对尽可能同时出现,并获得尽可能多的Friedel反射对。本次实验采取晶体的随机取向。

3.2.4 回摆角度、画面张数、曝光时间

还需要对回摆角度、画面张数、曝光时间进行设置。回摆角度通常取0.5~1°。回摆角度过小,导致每张画面上的衍射点过少,并会导致部分记录反射,一个衍射点可能分布在几张连续的画面上,需要在后续阶段将它们的强度合并;回摆角度过大,有可能导致衍射斑点重叠。画面张数与回摆角的乘积为总的旋转角度,晶体的对称性越低,要求的总旋转角越大,否则衍射盲区过大,丢失的衍射点过多。每张画面的曝光时间越长,收集整套数据过程中晶体受到的辐照时间也越长。蛋白质晶体对X射线辐照的耐受能力一般较弱,维持蛋白质晶体结构稳定的是诸如氢键、疏水相互作用等较弱的相互作用,对外界变化较敏感。X射线对蛋白质分子及晶体结构的稳定有较强的破坏作用。随着辐照时间的延长,晶体的衍射强度会逐渐衰弱,直到晶体完全无法使用。背景噪声正比于曝光时间也正比于回摆角,较小角度的回摆在改善信噪比的同时会产生更多的部分记录的反射。本次实验采用1°回摆角,收集360 张衍射图片。

3.2.5 衍射点的质量

判断衍射点的质量,应仔细观察衍射画面上衍射斑点的形状、锐利程度等,以圆点、比较明锐的点,可大致观察出点阵规则的图样为佳。如在衍射画面上发现有衍射斑点非常接近的情况,可能不是单晶,或由晶体至探测器距离过近导致衍射斑点重叠,或晶体单位晶胞某方向上长度非常大,导致倒易空间的长度非常小。如出现非常杂乱的点,可能出现了多晶;孪晶一般无法通过直接观察衍射图样得出,需要进一步的程序统计;晶体的各向异性可以在收集衍射数据旋转的过程中观察得出,如在某一角度衍射点的突然消失以及分辨率的突然下降,或点的形状不规则。本次实验遇到可能是多晶以及晶体存在各向异性的问题。

3.2.5 衍射分辨率

晶体的分辨率定义为Bragg方程中的最小d值。可根据实际观测到的衍射斑点分布圆的半径估计晶体实际衍射分辨率的数值:

R为实际观测到的衍射斑点分布圆的半径,H为衍射矢量。衍射点最外围分布离中心越远,衍射数据的极限分辨率越高。可以根据随着衍射分辨率的增加,衍射斑点的平均强度的下降速度和平缓程度判断晶体的内部结构的有序度的大致状况。

3.3 数据处理

收集衍射数据后需要通过相应软件进行数据处理,依次执行峰的搜索、指标化、精化、积分以及参数缩放,进行指标化,强度积分、合并以及振幅的还原。常用的数据处理软件有HKL3000、Mosflm、XDS等,上海光源均有安装。

3.3.1 指标化

指标化的目的是将每个衍射斑点的坐标转换为晶体学的衍射指标,将实空间衍射的坐标位置通过坐标变化转换为倒易空间的衍射指标。X射线通过晶体发生衍射产生的倒易空间坐标系a*、b*、c*,其坐标为h、k、l。实空间机械坐标,其坐标为x、y、z,一般取Z轴与旋转轴重合,X轴沿X射线束方向,Y轴与X轴、Z轴构成直角坐标系。

矢量x表示坐标x、y、z;矢量h表示衍射指标h、k、l;A为取向矩阵,即倒易点阵基矢在X、Y、Z轴的投影。

取向矩阵包含了定义倒易晶胞及其空间取向的基本数据。任意n > 3个反射,挑选3个反射,可得

简化得

由上述矩阵关系可得方程组

已知xxj、yyj、zzj的数值,且h、k、l均需为整数。利用计算机,对方程组中的每一个方程尝试挑选尽可能小的整数对h、k、l进行赋值,求得的值不能超过某个预先设置的数值,其偏离整数的程度可以小于预先设定的误差标准,选取合适的误差判据。

为使方程组有解,需满足:

求得各个反射的衍射指标后,可以获得初步的取向矩阵:

根据取向矩阵A,可以将机械坐标转换为衍射指标:

交替修正各种机械参数和变换矩阵,获得衍射点的更精确的指标化等。由取向矩阵可求得倒易坐标系的情况,得到约化晶胞,进而得到标准的Bravais晶胞。

指标化的基本步骤为,首先挑选若干个强衍射点并测定其机械坐标,计算若干个可能的单位晶胞,调整修正各种参数,包括晶体的镶嵌度因子,衍射斑点强度积分及其误差的周边范围大小,晶体至探测器平面的距离以及其他需要修正的机械参数。

正常情况下,指标化过程已可以准确判断晶体的晶系、空间点阵类型。在选取指标化过程给出的晶系和空间点阵类型的前提下,选取对称性最低和尽可能不产生系统消光的空间群作为强度积分与合并的对称依据,保证不丢失可能的赝对称。在强度积分与合并完成后,再根据所获数据的系统消光规律和衍射点强度彼此间的对称关系判断晶体中可能存在的对称元素。

确定空间群,首先在数据收集时,必须通过对可能的等效点的强度测量来检验晶体轴是否具有对称性。随后检查系统消光规律,根据结构因子的公式,通过计算可知所有带平移操作的对称元素,如带心点阵、螺旋轴、滑移面,都会产生系统消光现象。收集大部分衍射数据,了解晶体可能的系统消光现象,确定晶体的对称性和空间群。空间群的基本原则为就高不就低。

3.3.2 强度积分、合并、振幅的还原

指标化完成后,对X射线衍射强度积分、合并,并进行振幅的还原,目的是得到观测的衍射振幅。

收集到的若干张原始衍射画面,每个可能的衍射斑点的指标化也已完成。对每个衍射斑点进行强度积分,将设定的区域内所有节点上的记录值加和,并用经验的曲线进行拟合,最后得出该点强度积分值,对全记录衍射点和部分记录衍射点分别进行处理。指标化的准确度与积分区域大小正确的强度积分非常重要,相邻两个积分区域尽可能不重叠,衍射斑点的峰中心落在积分区域的中心。

对所有衍射画面上各个衍射斑点的强度积分值进行合并。判断是否进行部分记录的衍射点的合并,判断不同画面数据之间的偏离程度并决定衍射点的取舍等,最终给出数据质量的统计结果。衍射强度与结构因子振幅的平方成正比,对衍射强度数据进行吸收因子、洛伦兹因子、偏振化因子、温度因子、比例因子等校正后,获得结构振幅。

晶体X射线衍射强度的观测值:

K为总比例因子,Phkl为偏极化因子Phkl= (1+cos22θ)/2,Lhkl为洛伦兹因子,Ahkl为吸收因子,Bhkl为温度因子,Dhkl为辐射衰减因子。

3.3.3 衍射强度数据质量评估

对蛋白质晶体衍射强度数据质量进行评估,包括晶体的最高衍射分辨率以及数据完整度、强度信噪比、数据合并的偏离因子、冗余度、同种晶体不同个体衍射数据的分别收集与数据合并的统计、强度的Wilson统计的壳层分布。以一个XDS软件处理的结果为例。

3.3.3.1 衍射分辨率

由衍射空间的分辨率壳层判断衍射空间的分辨率。内壳层代表低分辨率,最外壳层代表衍射空间的最高分辨率。对蛋白质晶体最高衍射分辨率的判断,由代表来自随机半数据集的强度之间的相关百分比CC1/2应大于设定的数值,强度信噪比I/σ也应大于相应设定的数值,如CC1/2> 0.5,I/σ > 1.5。由输出结果,分辨率设置在4.1左右较为合适,可根据估计的分辨率修改输入文件重新运行XDS。

3.3.3.2 衍射数据完整度

衍射数据完整度为实际收集到的衍射点数目与理论上可能的衍射点数目的比值。衍射数据收集的过程中,由于可能存在衍射盲区使得不能获得部分衍射点,此外,由于测量的误差标准选取的原因可能舍去了部分衍射点,因此实际收集到的衍射点数目通常少于理论上可能的衍射点数目。实际衍射数据的完整度应大于95%。由输出结果,本次数据完整度达98.4%。

3.3.3.3 强度信噪比

强度信噪比为强度数据观测值与强度偏差的观测值的比值。强度信噪比越大数据质量越好。

3.3.3.4 数据合并的偏离因子

衍射数据收集过程中,部分衍射点及其对称等效衍射点可能获得多次重复测量,重复测量间的彼此偏离程度可在侧面反映数据的准确度。Rmerge越小,数据质量越好,总体应小于12%,内壳层应小于5%。由输出结果,本次总体为8.4%,最内壳层为2.0%。

3.3.3.5 冗余度

对称性相关衍射点重复测量的平均次数为观测衍射点数目与独立衍射点数目的比值,应大于4。对称性相关衍射点重复测量的平均次数可在侧面反映数据的准确度。由输出结果,本次冗余度为2.36。

3.3.3.6 同种晶体不同个体的衍射数据的分别收集与数据合并的统计

在实际工作中,由于某种原因,如晶体的耐辐照能力弱、单颗晶体衍射数据的衍射盲区过大等,必须使用多颗晶体才能完成整套衍射数据的数据,或有意使用多颗晶体的衍射强度的平均来提高测量的准确度等,均涉及到不同晶体个体数据的合并。数据的合并通常使用不同晶体间的共同反射,给出彼此间的偏离因子。

3.3.3.7 强度的Wilson统计

Wilson统计为

关于
的分布,obs(H)>为实验观测的强度,fj(H)为原子静止时的散射因子。K为计算强度与实验强度间的尺度因子,B为热振动因子。Wilson统计将计算与实验强度间的尺度因子和热振动因子从实验数据中分离,Wilson曲线的线形度可从侧面反映数据质量的好坏。结果显示直线拟合程度一般,数据质量尚可。

图 32 XDS数据处理Wilson统计

图 33 Wilson统计曲线

4. 总结

本次实习主要针对使用X射线晶体学方法解析蛋白质结构研究中的数据收集和数据处理部分,在上海光源蛋白质微晶体结构光束线站(BL18U1)体验了实际数据收集的过程,使用XDS、iMosflm进行数据处理,使用Phenix进行简单的分子置换法尝试,最后使用COOT简单体验手动进行分子模型的修正过程。

关于详细的结构解析部分还需要进一步深入学习。

参考文献

[1] 陈小明,蔡继文. 单晶结构分析原理与实践[M]. 北京: 科学出版社, 2003.

[2] 梁栋材. X射线晶体学基础[M]. 北京: 科学出版社, 2006.

[3] 徐洪杰. 上海光源首批线站设计与研制[M]. 上海: 上海科学技术出版社, 2015: 46.

作者介绍

李增茹,中国科学院物理研究所2019级在读硕士研究生,研究方向:X射线晶体学和冷冻电子显微学

发布于:北京

特别声明:以上文章内容仅代表作者本人观点,不代表 新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发布后的30日内与 新浪网联系。
加载中...