您当前的位置: > 首页 > 案例

案例

北京市计算中心GWAS分析案例

华中农业大学玉米农艺性状GWAS数据分析:基因型为玉米的600K芯片数据,表型为各发育时期不同农艺性状的总共797种表型。利用北京市计算中心高性能计算机群的分布式计算能力,仅用1天半的时间便完成了全部分析工作。

 

中国农业科学院高通量转录组数据的深度分析

我们对农科院的近60G高通量转录组测序数据进行了深入的生物信息学分析。主要内容包括:大规模测序数据的转录组从头拼接,大规模序列的功能注释,代谢通路分析,SSR位点搜索,SNP检测,基因差异表达分析(见图4)。


图4 基因差异表达分析结果

根据功能注释的结果,进行的GO功能分析。图5中展示了GO的三个分类中的基因数量。


图5 GO功能分析结果

根据功能注释结果,结合表达差异分析结果进行的KEGG代谢通路分析。图6中蓝色表示表达无明显变化的基因,红色表示表达上调的基因,绿色表示表达下调的基因。


图6 KEGG代谢通路分析结果

 

高血压相关基因关联分析

为了进一步研究高血压的遗传机理,某研究组利用一代测序技术对某个影响高血压发病率的重要基因及其上下游序列进行了测序,以期检测到常规的芯片方法所遗漏的致病SNP(这类SNP往往在常规人群中频率较低,而在发病人群中呈现富集)。

序列比对:测序的总样本量为150人(case-control设计),我们采用SSAHA软件将原始序列与中国汉族人的基因组序列做比对。

SNP检测和填充:采用GATK检测SNP(单核苷酸多态性,一种在生物基因组中广泛存在的分子标记)以获得个体基因型,进而使用Beagle对个体缺失基因型填充。

关联分析:使用Plink进行基因型—表型关联分析,找出与高血压显著关联的SNP分子标记,并估计其效应大小。

通过与参考基因组的比较共找出约300个SNPs,其中大多数为新发现的或常规人群中较稀有的,关联分析结果发现了7个SNPs与高血压显著关联(原始p值均<10-5),并且OR值均>5(见表3)。

 

高血压相关基因关联分析

为了进一步研究高血压的遗传机理,某研究组利用一代测序技术对某个影响高血压发病率的重要基因及其上下游序列进行了测序,以期检测到常规的芯片方法所遗漏的致病SNP(这类SNP往往在常规人群中频率较低,而在发病人群中呈现富集)。

序列比对:测序的总样本量为150人(case-control设计),我们采用SSAHA软件将原始序列与中国汉族人的基因组序列做比对。

SNP检测和填充:采用GATK检测SNP(单核苷酸多态性,一种在生物基因组中广泛存在的分子标记)以获得个体基因型,进而使用Beagle对个体缺失基因型填充。

关联分析:使用Plink进行基因型—表型关联分析,找出与高血压显著关联的SNP分子标记,并估计其效应大小。

通过与参考基因组的比较共找出约300个SNPs,其中大多数为新发现的或常规人群中较稀有的,关联分析结果发现了7个SNPs与高血压显著关联(原始p值均<10-5),并且OR值均>5(见表3)。

表3 高血压相关基因关联分析结果

CHR POS A1 F_A F_U A2 CHISQ P OR
1 11963730 T 0.5 0.07692 C 53.47 2.63E-13 12
1 11963732 T 0.5 0.07692 C 53.47 2.63E-13 12
1 11964599 A 0.5 0.07692 T 53.47 2.63E-13 12
1 11985780 T 0.225 0.04808 C 15.58 7.89E-05 5.748
1 11986911 G 0.5 0.1154 C 43.50 4.24E-11 7.667
1 11987405 A 0.5 0.1154 G 43.50 4.24E-11 7.667
1 11995172 T 0.5 0.07692 C 53.47 2.63E-13 12

注:CHR:染色体,POS:物理位置,A1:等位基因1,F_A:case组中等位基因A1的频率,F_U:control组中等位基因A1的频率,A2:等位基因2,CHISQ:卡方统计量,P:检验显著性值,OR:发病风险率。

我们计算的结果为后续的高血压发病机理研究建立提供了基础数据,为高血压早期诊断系统提供了备选分子标记库。

 

生物医学数据库系统开发与集成服务

图7 CYP450基因检测用药查询系统

 

生物信息培训

目前,已成功举办了多期生物信息培训班,中国农业科学院、北京师范大学、中国农业大学、北京市农林科学院、鲁东大学、301医院、上海海洋大学等多家院所、高校的研究生及研究人员参加了培训。