第五节 DNA多态性和遗传标记
同一物种不同个体的基因产物虽然绝大多数一致,但还是存在遗传差异。这种遗传差异的物质基础是DNA多态性。DNA多态性(DNA polymorphism)是DNA分子的一种序列特征,是指染色体DNA的某个基因座(称为多态性位点)存在两个或多个等位基因(源于插入缺失、重排、置换),且其中至少有两个等位基因的存在频率>1%(<1%称为罕见变异),造成同种DNA分子在同一群体的个体间或同一物种的群体间的多样性,表现为核苷酸序列的差异或重复单位拷贝数的差异,且该差异在种群中稳定存在,遗传方式符合孟德尔遗传规律。
遗传标记(genetic marker)又称遗传标志,是染色体上的一个位点,有可鉴定的表型,可作为鉴定该染色体上其他位点、连锁群或重组事件的标记。
一、DNA多态性种类
DNA多态性主要表现为反映限制性酶切位点变化的限制性片段长度多态性、反映重复单位拷贝数差异的串联重复序列多态性、反映点突变的单核苷酸多态性。此外还有一些衍生的多态性和多态性分析,例如单链构象多态性(SSCP,第十三章,302页)、扩增片段长度多态性(AFLP)、随机扩增多态性DNA(RAPD)等。
(一)限制性片段长度多态性
1970年,Smith、Wilcox和Kelley从流感嗜血杆菌(H.influenzae)中分离到一种核酸内切酶Hin dⅡ,它识别并切割GTY·RAC序列(Y表示嘧啶,R表示嘌呤)。这类能通过识别特定DNA序列切割DNA的酶统称限制性内切酶,限制性内切酶识别的序列称为限制性酶切位点(第十四章,304页)。
不难理解,DNA序列中存在一些限制性酶切位点,用识别这些位点的限制性内切酶消化DNA可以得到一组DNA片段,称为限制性片段(restriction fragment)。对于一个个体而言,其DNA序列中限制性酶切位点的数目和分布是确定的,因而其限制性片段的种类和长度是确定的,可以反映DNA分子的序列特征。另一方面,同一物种不同个体基因组存在DNA多态性,且约10%多态性位点导致限制性酶切位点的形成或消失,因而所含限制性酶切位点的数目和分布不同,其限制性片段的种类和长度也就不同。因此,限制性片段具有多态性,这种多态性称为限制性片段长度多态性(RFLP)。RFLP存在广泛,是一种典型的遗传标记。
(二)串联重复序列多态性
串联重复序列多态性(tandem repeat polymorphism)是指不同个体同一多态性位点所含某种重复单位的拷贝数具有多态性。
1.串联重复序列与卫星DNA 人类基因组序列中有10%~15%是串联重复序列,重复单位长2~171bp。这些串联重复序列可根据密度梯度离心特点分为两类。
(1)卫星DNA(satellite DNA) 组成不同于主体DNA,因而浮力密度也不同于主体DNA,进行密度梯度离心时会形成与主体DNA(主带,main band)分离的“卫星”带(图1-15)。
图1-15 卫星DNA
(2)隐蔽卫星DNA(cryptic satellite DNA) 组成及浮力密度与主体DNA没有明显差别,进行密度梯度离心时不会形成“卫星”带。
不过,通常所说的卫星DNA包括隐蔽卫星DNA,因而串联重复序列即指卫星DNA。
α卫星DNA是存在于灵长类染色体DNA着丝粒区的一种串联重复序列,重复单位长171bp,具有特异性、同源性、多态性,可能参与染色体配对。
2.可变数目串联重复序列与小卫星DNA、微卫星DNA可变数目串联重复序列(variable number of tandem repeat,VNTR)包括小卫星DNA和微卫星DNA,属于卫星DNA。
(1)小卫星DNA(minisatellite DNA) 重复单位长10~100bp,串联重复20~50次,是一种信息量很大的遗传标记,可用印迹杂交(第十一章,269页)或聚合酶链反应(PCR,第十三章,292页)检测。目前在人类基因组中已经鉴定了1000多种小卫星DNA。
(2)微卫星DNA(microsatellite DNA) 又称短串联重复序列(short tandem repeat,STR)、简单重复序列(simple sequence repeat,SSR),重复单位长度小于10bp(多数2~6bp),串联重复4~50次。微卫星DNA在染色体DNA中分布广(一般位于结构基因侧翼序列或非编码序列中)、密度高(占人类基因组序列的3%)、功能未知,被选为人类基因组计划的第二代遗传标记,可用PCR检测。目前在人类基因组中已经鉴定了10 000多种微卫星DNA,以CA重复序列最多(分布在人类基因组0.5×105~1.0×105个位点),此外还有CG、AT、CT、CAG、TCC、GACA、GATA等。
源于微卫星DNA的多态性称为微卫星多态性(microsatellite polymorphism)、短串联重复序列多态性(short tandem repeat polymorphism,STRP)、简单序列长度多态性(simple sequence length polymorphism,SSLP)、简单重复序列多态性(simple sequence repeat polymorphism,SSRP)。
小卫星DNA和微卫星DNA统称为可变数目串联重复序列(VNTR),是串联重复序列多态性的基础。VNTR的重复单位种类繁多,在基因组中分布广泛,大多数位于非编码序列中,其多态性信息量也极为理想,并且可用PCR进行检测。VNTR的主要缺点是需通过凝胶电泳才能对位点进行分型,这使其检测较难达到完全自动化。
(三)单核苷酸多态性
单核苷酸多态性(SNP)是指在基因组水平上由单核苷酸置换及缺失、插入产生的DNA多态性,因有以下特点而成为新的遗传标记,成为研究复杂疾病、药物敏感性及人类进化、人类家系、动植物品系遗传变异的重要标记。
1.数目巨大 是人类基因组中最基本、最常见、最广泛的多态性,已经鉴定的有1.5×107个,平均每200bp就有一个,占全部DNA多态性的90%以上。
2.具有二等位基因性 因而在任何人群中都可以估计其等位基因频率。
3.大多数是非编码序列SNP 编码序列SNP虽然较少,但在疾病的发生发展上起重要作用,因而更受关注。
4.部分可指导靶点确证 位于基因序列内的SNP直接影响产物结构或水平,因而可指导靶点确证。
5.检测方便 二等位基因性使SNP分析易于自动化、规模化。用基因芯片直接分析序列变异,可同时对上千个SNP位点进行分型。
二、DNA多态性意义
通过DNA多态性分析可以揭示人类个体的表型差异,例如环境反应性、疾病易感性和药物耐受性的差异,从而从根本上推动疾病预防、诊断、治疗的发展,包括①研究物种进化。②用作基因图谱的位标(第十六章,346页)。③用于家系分析、亲权鉴定、间接诊断、刑事鉴定等。④揭示常见多基因遗传病(如糖尿病、心脏病)的病因。⑤疾病的连锁分析及关联分析,用于疾病相关基因定位。⑥通过SNP检测揭示产生药物敏感性个体差异的根本原因,指导药物设计及个体化治疗(药物基因组学,第十六章,351页)。⑦指导和评价器官移植。
三、DNA多态性分析
限制性片段长度多态性和串联重复序列多态性常用DNA印迹分析,单核苷酸多态性常用PCR-RFLP、PCR-SSCP、毛细管电泳、DNA测序、基因芯片、Taqman技术分析。
1.限制性片段长度多态性分析 1980年,Bostein建立了RFLP分析技术,即通过限制性内切酶消化联合DNA印迹法(第十一章,279页)进行分析。该技术操作简单、成本低廉,从而使RFLP被选为人类基因组计划的第一代遗传标记,用于基因图谱绘制、DNA指纹分析、疾病易感性分析、基因诊断、亲权鉴定等。
2.串联重复序列多态性分析 串联重复序列两侧的序列高度保守,因而就同一物种不同个体而言,同一串联重复序列多态性位点两侧的序列相同且为单一序列,据此可以设计相应的引物,通过PCR扩增,然后通过平板电泳、毛细管电泳(第十章,260页)或基质辅助激光解吸电离飞行时间质谱(第十六章,364页)分析扩增产物的长度,鉴定其多态性。
3.单核苷酸多态性分析 ①SNP的传统分析技术有RFLP(第十三章,302页)、SSCP(第十三章,302页)、毛细管电泳(第十章,260页)、变性高效液相色谱(第十五章,328页)等,但这些技术只能判断是否存在SNP,不能鉴定SNP类型,且通量受限。②5′-核酸酶等位基因鉴别法、DNA测序(第十章,261页)、等位基因特异性寡核苷酸探针杂交法(第十一章,281页)、基因芯片(第十二章,284页)可以鉴定SNP类型,其中基因芯片可以在基因组范围内高通量分析SNP。
四、DNA指纹
DNA多态性是具有高度个体特异性的遗传标记,应用限制性内切酶消化联合凝胶电泳分析DNA多态性,得到的电泳图谱也具有绝对的个体特异性,恰似人类指纹的个体特异性,因而称为DNA指纹(DNA fingerprint),又称DNA分型。
DNA多态性是DNA指纹的内在基础,DNA指纹是DNA多态性的外在表现。地球上没有DNA序列完全相同的两个人,也就没有DNA指纹完全相同的两个人。因此,DNA指纹具有绝对的个体特异性,有着广泛的应用意义。