真核生物基因组

第二讲 真核生物基因组

真核生物的基因组比较庞大,并且不同生物种间差异很大,例如人的单倍体基因组由3.16×109 bp组成。在人细胞的整个基因组中实际上只有很少一部份(约占2%~3%)的DNA序列用以编码蛋白质。

第一节 真核生物基因组特点

真核生物体细胞内的基因组分细胞核基因组与细胞质基因组,细胞核基因组是双份的(二倍体,diploid),即有两份同源的基因组;细胞质基因组可有许多拷贝。真核细胞基因转录产物为单顺反子,一个结构基因经过转录和翻译生成一个mRNA分子和一条多肽链。细胞核基因组存在重复序列,重复次数可达百万次以上,大多为非编码序列;因此,基因组中不编码的区域多于编码区域。大部分基因含有内含子,因此,基因是不连续的。真核生物基因组远远大于原核生物的基因组,具有许多复制起点,但每个复制子的长度较小。

一、细胞核基因组与细胞质基因组

(一) 细胞核基因组

细胞核基因组的DNA与蛋白质结合形成染色体(chromosome)。除配子细胞外,体细胞有两个同源染色体,因此基因组有两份同源的基因组。染色体储存于细胞核内,是基因组遗传信息的载体。

(二) 线粒体基因组

线粒体基因组DNA(mitochondrial DNA,mtDNA)为双链环状超螺旋分子,类似

于质粒DNA,分子量小,大多在1~200×106之间,如人类mtDNA仅由16569 bp组成。mtDNA的复制属于半保留复制,可以是θ型复制,或滚环复制,或D环复制,由线粒体DNA聚合酶催化完成。

线粒体基因组主要编码与生物氧化有关的一些蛋白质和酶,如:呼吸链中的细胞色素氧化酶有七个亚基,其中三个亚基由mtDNA编码,其余四个亚基由细胞核DNA编码;细胞色素还原酶有七个亚基,基中的一个亚基由mtDNA编码;ATP酶含有十个亚基,其中四个亚基由mtDNA编码。线粒体基因组可能还包括一些抗药性基因。此外,线粒体基因组有自己的rRNA,tRNA,核糖体等系统,因此线粒体本身的一些蛋白质基因也可以在线粒体内独立地进行表达。

近几年的研究发现,哺乳动物mtDNA的遗传密码与通用的遗传密码有以下区别:①UGA不是终止密码,而是编码色氨酸的密码;②多肽内部的甲硫氨酸由AUG和AUA两个密码子编码,而起始甲硫氨酸由AUG、AUA、AUU和AUC四个密码子编码;③AGA、AGG不是精氨酸的密码子,而是终止密码子,因此,在线粒体密码翻译系统中有4个终止密码子(UAA、UAG、AGA、AGG)。

二、单顺反子结构

真核细胞结构基因为单顺反子(monocistron),一个结构基因经过转录生成一个单顺反子mRNA分子,翻译成一条多肽链,真核生物基本上没有操纵子结构。

三、断裂基因

真核细胞基因组的大部分序列属于非编码区,不编码具有生物活性的蛋白质或多肽。编码区通常为结构基因,结构基因不仅在两侧有非编码区,而且在基因内部也有许多不编码蛋白质的间隔序列(intervening sequences),因此,真核细胞的基因大多由不连续的几个编码序列所组成,称之为断裂基因(split gene)。

(一) 内含子与外显子

内含子(intron)是结构基因中的非编码序列,往往与编码序列呈间隔排列。当基因转录后,在mRNA的成熟过程中被剪切(splicing)。

外显子(exon)是结构基因中的编码序列,当基因转录后,mRNA在成熟过程中切去内含子,外显子才被拼接成完整的序列,成为成熟的mRNA作为指导蛋白质合成的模板。

(二) 间隔区DNA

真核生物基因之间存在编码空白区或转录的空白区,称之为间隔区DNA(spacer DNA),这些序列往往在单拷贝的结构基因之侧翼,并使结构基因彼此分开,间隔区DNA也可以存在于rDNA区。间隔区DNA大小与基因组的大小有关,一般来说,基因组愈大,间隔区DNA所占的比例也愈高。

四、重复序列

(一) 高度重复序列

真核生物基因组中普遍存在着重复序列,其中重复频率高,可达百万(106)以上的重复序列,称之为高度重复序列。在人类基因组中约占20%。由于高度重复序列中碱基组成的复杂度很低,因此其复性速率很快。高度重复序列又按其结构特点分为三种:

1.反向(倒位)重复序列 这种重复序列复性速度极快,即使在极稀的DNA浓度下,也能很快复性,因此又称零时复性部分,人基因组中约占5%。倒位重复序列由两个相同顺序的互补拷贝在同一DNA链上反向排列而成。变性后再复性时,同一条链内的互补的拷贝可以形成链内碱基配对而形成发夹式或“+”字形结构。倒位重复(即两个互补拷贝)之间可有若干个核苷酸的间隔,也可以没有间隔。没有间隔的又称之为回文(palindrome)结构,回文结构约占所有倒位重复的三分之一。

2.卫星DNA(satellite DNA) 重复序列的重复单位一般由2~10bp组成,且成串排列。由于这类序列的碱基组成不同于其他部份,可用等密度梯度离心法将其与主体DNA分开,因而称为卫星DNA或随体DNA。在人类基因组中卫星DNA约占5~6%。

3. 高度重复顺序的功能主要有:①参与复制水平的调节。反向序列常存在于DNA复制起点区的附近;另外,许多反向重复序列是一些蛋白质(包括酶)和DNA的结合位点。②参与基因表达的调控。③参与转位作用。几乎所有转位因子的末端都包含反向重复序列,长度由几个bp到1400bp。④与进化有关。不同种属的高度重复序列的核苷酸序列不同,具有种属特异性,但相近种属又有相似性。⑤与个体特征有关。同一种属中不同个体的高度重复序列的重复次数不一样,这可以作为每个个体的特征,即DNA指纹。⑥与染色体减数分裂时染色体配对有关。

(二) 中度重复序列

中度重复序列是指在真核基因组中重复数十至数万次(

速度快于单拷贝顺序,但慢于高度重复序列。少数在基因组中成串排列在一个区域,大多数与单拷贝基因间隔排列。依据重复序列的长度,中度重复序列可分为两种类型。

1.短分散片段(short interspersed repeated segments,SINES) 重复序列的平均长度为300bp(一般

Alu家族 是哺乳动物基因组中含量最丰富的一种中度重复顺序家族,约占人类基因组的3%~6%。Alu家族每个成员的长度约300bp,每个单位长度中有一个限制性内切酶Alu的切点(AG↓CT),Alu可将其切成两段,130bp和170bp,因而定名为Alu序列(或Alu家族)。Alu序列分散在基因组中,在间隔区DNA,内含子中都发现有Alu序列。Alu序列具有种特异性,以人的Alu序列制备的探针只能用于检测人的基因组中的Alu序列,由于在大多数的含有人的DNA的克隆中都含有Alu序列,因此,可用以人的Alu序列制备的探针与克隆杂交来进行筛选。

2.长分散片段(long interspersed repeated segments,LINES) 重复序列的长度大于1000bp,平均长度为3500~5000bp,如KpnⅠ家族等。中度重复序列在基因组中所占比例在不同种属之间差异很大,在人类基因组中约为12%。中度重复序列大多不编码蛋白质。其功能可能类似于高度重复序列。有些中度重复序列则是编码蛋白质或rRNA的结构基因,如HLA基因、rRNA基因、tRNA基因、组蛋白基因、免疫球蛋白基因等。中度重复序列可存在于结构基因之间、基因簇之中,甚至存在于内含子内部等。中度重复序列一般具有种属特异性,因此在适当的情况下,可以应用它们作为探针以区分不同种属哺乳动物细胞来源的DNA。

KpnⅠ家族是中度重复顺序中仅次于Alu家族的第二大家族,用限制性核酸内切酶KpnⅠ消化人类及其它灵长类动物的DNA,在电泳图谱上可以看到4个不同长度的片段,分别为1.2、1.5、1.8和1.9kb,在人类基因组中,KpnⅠ家族的拷贝数约为3000~4800个,约占基因组的1%。

(2)组蛋白基因 在各种生物体内重复的次数不一样,组蛋白基因没有一定的排列方式,组蛋白基因不含内含子,组蛋白基因序列都很相似,从而编码的组蛋白在结构上和功能上也极为相似,具有高的保守性。

(三)低度重复序列(单拷贝序列)

低度重复序列在单倍体基因组中只出现一次或数次,因而复性速度很慢。人基因组中,大约有 60%~65% 的序列属于这一类。低度重复序列中储存了巨大的遗传信息,编码各种不同功能的蛋白质。目前尚不清楚单拷贝基因的确切数字,在低度重复序列中只有一小部份用来编码各种蛋白质,其他部份的功能尚不清楚。

五、多基因家族与假基因

(一) 多基因家族

多基因家族(multigene family)是指由某一祖先基因经过重复和变异所产生的一组基因。多基因家族可分为两类:①基因家族成簇地分布在某一条染色体上,其可同时发挥作用,合成某些蛋白质(如:组蛋白基因家族就成簇地集中在第7 q 326);②一个基因家族的不同成员成簇地分布在不同的染色体上,这些不同成员编码一组功能上紧密相关的蛋白质(如珠蛋白基因家族)。

(二) 假基因

在多基因家族中,某些成员并不产生有功能的基因产物,这些基因称为假基因(pseudo gene)。假基因与有功能的基因是同源的,原来可能也是有功能的基因,但由于缺失,倒位或点突变等,使这一基因失去活性,成为无功能的基因。

人们推测假基因的来源之一,可能是基因经过转录后生成的hnRNA通过剪接失去内含子形成mRNA,mRNA经逆转录产生cDNA,再整合到染色体DNA 中去,便有可能成为假基因,因此该假基因就没有内含子,在这个过程中,可能同时会发生缺失,倒位或点突变等变化,从而使假基因失去表达活性。

六、多态性

基因组中某个基因在同种生物的不同个体中,同时和经常存在的两种或两种以上的变异型或基因型的现象,称为基因多态性(gene polymorphism)。

真核生物基因组中基因多态性常常出现在限制性核酸内切酶的酶切位点序列中,因此,用某个限制性核酸内切酶来酶解基因组的某段序列时,在同种的不同个体之间该段序列可能被酶解成长短不等的几个DNA片段,即这段序列在该种生物的群体中形成多态性,这种多态性称为限制性核酸内切酶片段长度多态性(restriction fragment length polymorphism,RFLP)。

RFLP分为两种类型:一类是由于限制性内切酶位点上发生了单个碱基突变而使这

低度重复序列在单倍体基因组中只出现一次或数次,因而复性速度很慢。人基因组中,大约有 60%~65% 的序列属于这一类。低度重复序列中储存了巨大的遗传信息,编码各种不同功能的蛋白质。目前尚不清楚单拷贝基因的确切数字,在低度重复序列中只有一小部份用来编码各种蛋白质,其他部份的功能尚不清楚。

五、多基因家族与假基因

(一) 多基因家族

多基因家族(multigene family)是指由某一祖先基因经过重复和变异所产生的一组基因。多基因家族可分为两类:①基因家族成簇地分布在某一条染色体上,其可同时发挥作用,合成某些蛋白质(如:组蛋白基因家族就成簇地集中在第7 q 326);②一个基因家族的不同成员成簇地分布在不同的染色体上,这些不同成员编码一组功能上紧密相关的蛋白质(如珠蛋白基因家族)。

(二) 假基因

在多基因家族中,某些成员并不产生有功能的基因产物,这些基因称为假基因(pseudo gene)。假基因与有功能的基因是同源的,原来可能也是有功能的基因,但由于缺失,倒位或点突变等,使这一基因失去活性,成为无功能的基因。

人们推测假基因的来源之一,可能是基因经过转录后生成的hnRNA通过剪接失去内含子形成mRNA,mRNA经逆转录产生cDNA,再整合到染色体DNA 中去,便有可能成为假基因,因此该假基因就没有内含子,在这个过程中,可能同时会发生缺失,倒位或点突变等变化,从而使假基因失去表达活性。

六、多态性

基因组中某个基因在同种生物的不同个体中,同时和经常存在的两种或两种以上的变异型或基因型的现象,称为基因多态性(gene polymorphism)。

真核生物基因组中基因多态性常常出现在限制性核酸内切酶的酶切位点序列中,因此,用某个限制性核酸内切酶来酶解基因组的某段序列时,在同种的不同个体之间该段序列可能被酶解成长短不等的几个DNA片段,即这段序列在该种生物的群体中形成多态性,这种多态性称为限制性核酸内切酶片段长度多态性(restriction fragment length polymorphism,RFLP)。

RFLP分为两种类型:一类是由于限制性内切酶位点上发生了单个碱基突变而使这

一限制性位点发生丢失或获得而产生的多态性,故称之为点多态性(point polymorphism)。这类多态性实际上是双态的,即有(+)或无(-)。另一类是由于DNA分子内部发生较大的顺序变化所致。这一类多态性又可以分成两个亚类:第一亚类是DNA顺序上发生突变如缺失、重复、插入。第二亚类是近几年发现的所谓“高变区”。高变区(highly variable region),是由多个串联重复顺序组成的,不同的个体高变区内所串联重复的拷贝数相差悬殊,因而高变区的长度变化很大,从而使高变区两侧限制性内切酶识别位点的固定位置随高变区的大小而发生相对位移。所以这一类型的RFLP是由于高变区内串联重复顺序的拷贝数不同所产生的,其突出特征是限制性内切酶识别位点本身的碱基没有发生改变,改变的只是它在基因组中的相对位置。

第二节 基因组结构与疾病

一、人类染色体的结构与疾病

(一) 人体染色体数目、结构和形态

人类体细胞中有46条染色体,其中44条(22对)为常染色体,另两条为性染色体(女性为XX,男性为XY)。生殖细胞中卵细胞和精子各有23条染色体,卵细胞为22+X,精子为22+X或22+Y。为便于鉴别人类的每一条染色体,根据染色体的长度和着丝粒的位置将人类染色体顺次由1编到22号,并分为A、B、C、D、E、F、G等7个组。用荧光染料喹吖因氮芥(quinacrine mustard)体外处理染色体标本,在荧光显微镜下每条染色体可出现宽窄和亮度不同的纹(荧光带),称之为Q显带;若用热、碱、胰酶、尿素、去垢剂或某些盐溶液预先处理染色体标本,再经Giemsa染色,则染色体可显示出类似的带纹,称之为G显带。用其它方法还可以得到与G带明暗相反的R带(reverse bands)和专门显示着丝粒异染色质的C带,以及专一显示染色体的端粒(T显带)或核仁组织区(N带)和各种带型。显带技术不仅解决了染色体的识别问题,而且,通过显带可以区别染色体上的许多区和带,为进一步深入研究染色体的异常和人类基因定位创造了条件。

(二) 染色体的数目畸变与疾病

正常人的体细胞具有46条染色体(2n),配子细胞(精子和卵)具有23条染色体(n),前者称为二倍体,后者称为单位体。染色体偏离正常数目称为染色体数目异常或

数目畸变。

1.多倍体和多倍性 体细胞染色体倍数超过二倍(2n)的细胞称为多倍体细胞,体细胞获得多倍体的性状称为多倍性(polyploidy)。

2.异倍性或非整倍性 细胞的染色体数非23的整倍时,称为异倍体细胞,如细胞具有44,45,47,48,67条染色体时都是异倍体细胞,44和45略少于46,故可称为亚二倍体;47,48略多于46,称为超二倍体;67可称为亚三倍体等。异倍体细胞在肿瘤组织中十分常见。发生的原因是:①染色体的丢失;②染色体的核内复制(endoredplication);③染色体不分离。

3.三体性和单体性 体细胞的某号染色体增多一条,称为三体性(trisomy);体细胞的某号染色体减少一条,称为单体性(monosomy)。导致三体性或单体性的原因可能是在减数分裂时发生了染色体不分离(nondisjunction),如在细胞分裂时,某一染色体的两条单体在分裂后期不能正常地分开而同时进入某一子细胞,则必然导致该子细胞增多一条染色体而另一子细胞缺少一条染色体。Down综合征(47,+21)、Patau综合征(47,+13)、Edward综合征(47,+18)等均为典型的常染色体三体综合征,临床上多表现为智力损害和发育畸形。常染色体的单体性由于严重破坏基因平衡,因而是致死的。

(三) 染色体的结构异常与疾病

1.染色体结构异常的类型

染色体断裂(breakage)、或染色体断裂端的非正常重连均可导致染色体结构异常。常见的染色体结构异常有:①缺失(deletion)②形成环状染色体(ring chromosome),当一条染色体的两臂各有一次断裂,有着丝粒节段的两个断裂端如彼此重新连接,可形成环状染色体。③等臂染色体(isochromosome),染色体断裂如果发生在着丝粒区,使着丝粒横断,则两个臂的姐妹染色单体可分别互相连接,导致长臂与长臂重连,短臂与短臂重连,形成等臂染色体。④倒位(inversion)⑤易位(translocation)⑦插入(insertion),⑧重复(duplication)染色体的相互易位、插入等都是导致重复的主要原因。

2.染色体结构异常与疾病

例如,猫叫综合征患者80%为5P15缺失,10%为不平衡易位,个别为环状染色体或嵌合体。脆性X染色体综合征是由于X染色体长臂2区7带(Xq27)具有随体和细丝

状次缢痕,称为脆性部位(fragile site), 在Xq27处有脆性部位的X染色体称为脆性X染色体(fragile X)。Down综合征主要是由于患者体内多了一条21号染色体(47,+21),此外,21号染色体长臂与另一条D组或G组染色体通过着丝粒融合(罗氏易位),也可导致Down综合征。Turner综合征主要是由于患者体内少了一条X染色体(45,X),此外,还有各种嵌合型(46,XX/45,X和46,X,i(Xq))和X染色体结构异常的核型。如Xp缺失、X长臂缺失、X染色体长臂等臂染色体等等。

二、基因结构与疾病

(一) 基因组结构及异常

所谓基因组结构,就是指基因组DNA中不同的功能片段在整个基因组中的分布。真核生物基因组DNA是有序的分布在染色体上,因此,基因组结构与染色体数目、结构和形态有关,染色体数目的畸变、染色体结构的异常都将影响基因组的结构。然而,基因组结构的改变并非一定导致基因结构的改变,基因结构的改变也不一定导致基因功能的异常。只有当缺失、倒位、易位、插入等引起基因突变,而且这种突变又改变了基因的编码序列或影响了基因的调控序列时,基因的结构及其功能才发生异常,这种异常又常常会导致基因病(genic disease)的发生。

(二) 基因结构异常与疾病

基因结构异常,从广义上包括染色体畸变(chromosome aberration)和基因突变(gene mutation)。狭义上基因结构异常一般指基因突变。基因突变即基因的核苷酸序列或数目发生改变,DNA分子中只出现单个碱基改变者称为点突变(dot mutation),涉及多个碱基改变的有缺失、重复、插入等。

基因结构异常是引起基因病的主要原因,基因病常分为单基因病(monogenetic disease)和多基因病(multigene disorder),有报道,全球新生儿中至少有2%有明显的先天异常,其中大约有一半为单基因病。

1.单基因病

(1) 血红蛋白病 由于珠蛋白基因突变导致珠蛋白分子结构或合成量异常所引起的疾病,称为血红蛋白病(hemoglobinopathy,Hb)。Hb由四种珠蛋白肽链组成,它们分别是α、β、δ和γ肽链,其不同的组合形成各种血红蛋白。如:编码β链第6位谷氨

酸的密码是GAA,当颠换成GUA时,编码的氨基酸改为缬氨酸,即导致血红蛋白结构和功能异常,引起镰刀状红细胞贫血。又如:在中国人中发现的β珠蛋白基因转录的密码子17由AAG→UAG的突变,或β珠蛋白基因转录的密码子41~42产生缺失,均导致转录的mRNA在翻译时过早终止,造成β珠蛋白链过短而失活;引起β珠蛋白生成障碍性贫血。

(2) 苯丙酮尿症 苯丙酮尿症(PKU)的病因是患者肝细胞缺乏苯丙氨酸羟化酶,使体内的苯丙氨酸不能正常代谢为酪氨酸,导致血清中苯丙酮酸浓度升高。现已知苯丙氨酸羟化酶基因定位于12q24.1,此基因全长约90kb,含13个外显子,在中国人中已发现10余种点突变,这是造成酶活性缺乏的原因。

2.多基因病

(1) 原发性高血压

原发性高血压的致病基因及相关基因尚不明确。高血压候选基因有150多个,血管紧张素转换酶(angiotensin-converting enzyme,ACE)、血管紧张素原、内皮素、β2肾上腺素受体(β2-adrenergic receptor)、G蛋白鸟嘌呤核苷结合蛋白β3亚基基因最有可能成为高血压相关基因。ACE基因定位于染色体17q23,有26个外显子和25个内含子,全长约21kb,在16号内含子内存在插入(I)和缺失(D)两种变异体。人类ACE基因型与血清ACE的活性有关:DD>DI>II,ACE基因的插入/缺失多态性与动脉粥样硬化性心血管疾病、心肌肥厚和再狭窄有一定的相关性。

(2) 糖尿病

糖尿病是一种具有明显遗传倾向的多基因疾病,根据发病机制,可分为Ⅰ型、Ⅱ型、和妊娠型糖尿病。

Ⅰ型糖尿病(Ⅰ-DM)遗传背景研究早期主要集中在人类白细胞抗原(HLA)和易感性和抗性位点上。在Ⅰ-DM 患者中,HLA-Ⅰ类抗原中B15、B8、B18出现频率明显增加,而B7出现频率显著下降。HLA-Ⅱ类抗原中DQα52位精氨酸为Ⅰ-DM的易感受性位点,而DQβ57天冬氨酸为Ⅰ-DM的抗性位点。近年来采用微卫星荧光标记半自动全基因组扫描技术,陆续发现许多位点与1-DM相关,如IDDM1:6p21;IDDM2:11p15;IDDM3:15q26;IDDM4:11p13;IDDM5:6q25;等等。

Ⅱ型糖尿病(Ⅱ-DM)的遗传缺陷包括:胰岛素基因点突变、胰岛素受体前缺陷、胰岛素受体缺陷、胰岛素受体后及信号传导系统缺陷、胰岛素作用的靶组织的遗传缺陷,等等。现已知的2-DM易感基因位点有:D2S125(位于2q37)、D12S1349(位于12号染色体)、D20S197(位于20q),等等。

三、端粒与端粒酶

1930’,著名的遗传学家 B.Mcclintock 和HJ.Müller发现,真核细胞的染色体末端存在着一种由DNA片段和蛋白组成的独特的结构,这种结构对维持染色体的稳定性具有重要的作用,失去了这些片段,染色体就会互相粘连到一块,发生结构及功能上的改变,从而影响到细胞的分裂与生长,这一结构定义为端粒(telomere)。

人及其它脊椎动物中是以5’TTAGGG 3’为单位进行重复,其它物种可有5~8bp的长度。重复的次数(n)也因物种而异,由几十到数千不等。

端粒的主要作用是:维持染色体的稳定性,防止染色体的重组及末端被降解。最近的一些研究表明,端粒还能保证细胞在有丝分裂时染色体准确地分离,在减数分裂时保证染色体的成对及运动。端粒的另一个重要作用是它在细胞生长中的作用。

端粒酶是一种核糖蛋白酶,具有逆转录酶活性。人端粒酶分子有三个主要的组分,人端粒酶RNA(human telomerase RNA,hTR)、人端粒酶相关蛋白(telomerase-associated protein,TP1/TLP1)和人端粒酶催化蛋白亚单位(the catalytic protein subunit of telomerase,hTERT)。

细胞内端粒酶活性的缺失导致端粒缩短,端粒随细胞分裂每次丢失50~200个碱基,端粒一旦缩短到短于某个“关键长度”时,就很有可能导致染色体双链断裂,并激活细胞自身的检验系统,使细胞进入M1期死亡状态;随着端粒的进一步丢失,发生染色体重排,结果导致了无着丝粒染色体和非整倍体染色体的形成等,使细胞进入M2期死亡状态。因此,细胞要维持其正常分裂,就必须激活端粒酶,阻止端粒的进一步丢失,否则,细胞不能进行染色体的正常复制,所以只有重新获得端粒酶活性的细胞,才能继续生存下去。对于那些无法激活端粒酶活性的细胞,即无法阻止端粒的进一步丢失,细胞只能面临趋向衰老。

第二节 人类基因组与人类基因组计划

一、人类基因组

人类基因组包括细胞核内的核基因组和细胞质内的线粒体基因组。核基因组由

3.16×10 9 bp 组成,线粒体基因组由16569 bp组成。正常体细胞(二倍体)基因组包括二个核基因组和多个线粒体基因组。核基因组包含在22条常染色体和X、Y性染色体内,每条染色体大小不等。

人类基因组的组织特点为:①功能相似或相关的基因常常散在分布于不同的染色体上(尔偶聚集在一起);②基因组中各个基因的大小和内部组织的差异极大;③各个基因的大小差异很大,从数百个bp、几个kb到数百个kb不等;④基因组含重复序列,重复序列大多为非编码的,与编码序列相间排列,以此来分散结构基因;⑤每个结构基因都有单独的调控序列。

人类基因组中,存在着大量的非编码序列,如前述的高度重复顺序、内含子、间隔区DNA等。这些序列中,只有很小一部份具有重要的调节功能,绝大部分都没有什么特殊功用。在这些DNA序列中虽然积累了大量缺失,重复或其他突变,但对生物并没有什么影响,它们的功能似乎只是自身复制,因此将这类DNA称为自私DNA(selfish DNA)或寄生DNA(parasite DNA)。自私DNA也许有重要的功能,只是目前我们对其功能还未了解而已。

二、人类基因组计划

HGP的基本任务可用4张图谱来概括,即遗传图谱、物理图谱、序列图谱和基因图谱。

1.遗传图谱

遗传图又称连锁图。即在基因组中寻找可以表明基因之间位置关系的遗传标记。 第一代标记是经典的遗传标记,最初主要是利用蛋白质和免疫学的标记,如ABO血型位点标记、HLA位点标记。70年代中后期建立起来的限制性片段长度多态性(RFLP)方法在整个基因组中确定的位点数目达到105以上,该系统一经建立就广泛应用到基因组的研究中。RFLP最成功的运用是在Hungtington舞蹈症的基因定位。然而,RFLP可提供的信息量很有限,并且有时还需用放射性同位素标记的DNA片段为

探针检测RFLP,因而又存在着工作环境和费用等问题。

第二代标记称“小卫星中心”(minisatellite core)和“微卫星标记”(microsatellite marker),这一系统是目前在基因定位的研究中应用最多的标记系统。

STR的遗传学图距是以cM(厘摩尔根)为单位的,反映基因遗传效应的基因组图。STR作为遗传标记使人类基因组的遗传制图与连锁分析发生了革命性的变化。

第三代标记是称作单核苷酸多态性标记(single nucleotide polymorphism,SNP)的遗传标记系统。人类群体有很大的遗传多样性,由这种方式产生的单碱基变异就形成许多双等位型标记。这种标记在人类基因组中可达到300万个,平均每1000个碱基对就有一个。因此,3~4个相邻的这种标记构成的单倍型(haplotype)就可以有8~16种,相当于一个微卫星标记形成的多态性。

2.物理图谱

完整的物理图应包括人类基因组的不同载体DNA克隆片段重叠群图,大片段限制性内切酶切点图,DNA片段(探针)或一段特异DNA序列(STS)的路标图,以及基因组中广泛存在的特征性序列等的标记图,人类基因组的细胞遗传学图,最终在分子水平上与序列图的统一。

以STS位路标的物理图与已建的遗传图进行对比,可以把遗传学信息和物理信息进行互相转换(如某一 区域1cM的遗传间距可以粗略的“折算”成某一区域1cM的物理间距)。片段重叠群则为研究该区域提供了可以操作的基因组材料,及相互重叠、覆盖这一区域的DNA片段,可以在这一区域寻找某一基因或进行这一区域基因组的研究。而作为人类基因组物理图的组成部分的最基本层次的“细胞遗传图”是统一物理图与遗传图的根本之图。

3.序列图谱

人类基因组计划最初的目标是要在15年内完成测定总长度由30亿个核苷酸组成的人类基因组的序列图。目前的策略是把庞大的基因组分成若干有路标的区域后,进行测序分析。

4.基因图谱

在人类基因组中鉴别出占据2%~5%长度的全部基因的位置、结构与功能。涉及办法很多,但最主要的是通过基因的表达产物mRNA反追到染色体的位置,其原理是:

所有生物性状和疾病都是由结构或功能蛋白质决定的,而已知的所有蛋白质都是由RNA聚合酶指导合成的带有多聚A尾巴的mRNA编码的,这样就可以把mRNA通过反转录酶合成cDNA或称作EST的部分cDNA片段,然后,再用这种较稳定的cDNA或EST作为“探针”进行分子杂交,鉴别出与转录有关的基因。

(三) 人类基因组计划的延伸——后基因组计划

功能基因组学延伸的内容有:人类基因组多样性计划、环境基因组学、肿瘤基因组解剖学计划及药物基因组学等。其核心问题一般包括:基因组多样性、遗传疾病产生的起因、基因的表达调控的协调作用以及蛋白质产物的功能等。模式生物体在研究功能基因组学中将起到重要的工具作用。此外,HGP及其延伸内容决定性的成功取决于生物信息学和计算机生物学的发展和应用,主要体现在数据库对数据的储存能力和分析工具的开发。这些都将成为人类基因组计划延伸篇中的主要内容。


相关文章

  • 江西省农业转基因生物安全管理执法自查报告
  • 江西省农业转基因生物安全管理执法自查报告 根据农业部农科教发[2003]5号“关于开展农业转基因生物安全管理执法检查的通知”要求,我省为搞好此次全省农业转基因生物安全执法检查,于3月中旬由农业厅科教处、政策法规处牵头,召集厅属相关单位认真学 ...

  • 基因工程论文:基因工程原理及进展
  • 基因工程原理及进展 [摘要] 基因工程技术是一项正在蓬勃发展的技术,它将给人类社会带来一场深刻的变革,我们有必要了解基因工程的概念.原理.技术程序,以及基因工程在农业.工业.医药等方面的应用和进展情况. [关键词] 基因工程 原理 技术程序 ...

  • 基因工程技术
  • 基因工程技术 百科名片 DNA与基因工程 基因工程技术:将重组对象的目的基因插入载体,拼接后转入新的宿主细胞,构建成工程菌(或细胞),实现遗传物质的重新组合,并使目的基因在工程菌内进行复制和表达的技术. 目录 概念    基因工程诞生 ...

  • 生物信息学课程论文
  • 生物信息学的发展和前景 摘要:生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿. 本文对生物信息学的产生背景及其研究现状等方面进行了综述,并展望生物信息学的发展前景.生物信息学的发展在国内.外基本上都处在起步阶段.因此 ...

  • 浅谈合成生物学的应用
  • 浅谈合成生物学应用 ----24008107 周乐 摘要:合成生物学从最基本的生命要素开始研究,目的是建立人工生物体系.合成生物学主要研究4个方面的内容:首先要研究的是细胞网络:二是研究基因线路:三是合成生物材料与物质:四是最小基因组与合成 ...

  • 2.1基因控制生物的性状
  • 学习目标: 1. 举例说出生物的性状是由基因控制的. 2. 举例说出生物的性状以及亲子代间在性状上的延续现象. 3. 举例说出不同种性状和相对性状之间的区别. 学习重点: 1.举例说出性状.相对性状. 2.举例说出生物的性状是由基因控制的. ...

  • 专家谈生物信息学阅读答案
  • 阅读下面的文字,完成下题. 专家谈生物信息学 21世纪人类的目光在注视客观世界的同时,开始科学而缜密地审视自己,人类要"改造自我",人类要在遗传基因的"最基本层面"上,对荼毒人类的种种遗传疾病发起最后 ...

  • 高中生物必修2复习资料
  • 高一下学期生物必修②复习资料 遗传因子的发现 第1.2节 孟德尔的豌豆杂交实验 一.基本概念: (1)性状--是生物体形态.结构.生理和生化等各方面的特征. (2)相对性状--同种生物的同一性状的不同表现类型. (3)在具有相对性状的亲本的 ...

  • 环境微生物的宏基因组学研究新进展_孙欣
  • 网络出版时间:2013-07-02 17:00 网络出版地址:http://www.cnki.net/kcms/detail/11.3247.Q.20130702.1700.001.html 生物多样性 2013, 21 (4): 1–1 ...

  • 生物技术及应用专业
  • 很多人认为,2000年是生物技术产业投资年.人类基因测序的完成和公布,是科学史上的又一个里程碑,它令很多投盗者为之神魂颠倒.2000年美国的生物技术产业股票市场新增300亿美元,这一数值大大超过前5年该产业股市投资的总和,生物技术的股票与其 ...

© 2024 范文参考网 | 联系我们 webmaster# 12000.net.cn