当前位置:网站首页>使用shapeit进行单倍型分析

使用shapeit进行单倍型分析

2022-06-21 09:36:00 51CTO

欢迎关注”生信修炼手册”!

shapeit是一款单倍型分析工具,运算速度快,准确率高,是impute2官方推荐的pre-phasing工具,官网如下

 ​http://mathgen.stats.ox.ac.uk/genetics_software/shapeit/shapeit.html​

对应的文献发表在nature method上,链接如下

 ​https://www.nature.com/articles/nmeth.1785​

通过隐马可夫模型来分析单倍型,简化的模型示意如下

使用shapeit进行单倍型分析_html

从上到下依次有5个子图,用1到5来表示,需要分成3个部分来看。在1图中,表示的是8个位点构成的8种单倍型,每行表示一个单倍型,每一列代表一个位点,2图中用图状结构来表示上述的单倍型,每个节点表示一个SNP位点,依次用Z1到Z8表示,从1到8的完整路径代表一个单倍型。观察图1可以发现,前4个位点只有3种组成,后4个位点也是同样的,通过4号位点和5号位点的不同连线可以表示所有的单倍型,每条边上的数字代表对应的频数。

图5表示的是某个样本的分型结果,分别用0,1,2表示不同的状态,0表示没有突变,1表示杂合突变,2表示纯合突变,根据分型结果拆分成单倍型的时候,杂合突变对应2个allel,  根据这个分型结果可以得到图4中对应的单倍型构成,图4中ref allel用空白方框表示,alt allel用黑色方框表示,对于前5个位点,存在了2个杂合突变,所以有4种路径,后3个位点也是4种。

图3表示的是该软件的隐马可夫模型,将真实的单倍型当做是隐藏序列,将根据分型结果预测的单倍型当做是观察序列,通过建模之后来分析隐藏序列的组成,就得到了真实的单倍型分析结果。

在文献中,将该软件与其他类似的工具进行了比较,结果示意如下

使用shapeit进行单倍型分析_sed_02

采用了3个不同的数据集,比较了运行时间和错误率,shapeit错误率最低,运行速度最快。

该软件的基本用法如下

      
      
shapeit \
--input-bed gwas.bed gwas.bim gwas.fam \
--input-map genetic_map.txt \
--output-max gwas.phased.haps gwas.phased.sample
--thread 8
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.

需要指定的参数分成了以下3个部分

1. input  unphased genotypes

支持以下3种格式

  1. ped/map
  2. bed/bim/fam
  3. gen/sample
  4. vcf

前两种为plink软件的格式,是GWAS分析最常见的文件格式,第三种格式是WTCCC默认的文件格式 第四种是最常见的VCF格式。

不同类型的输入文件对应的用法如下

      
      
shapeit \
--input-ped gwas.ped gwas.map \
-M genetic_map.txt \
--missing-code N \
-O gwas.phased

shapeit \
--input-bed gwas.bed gwas.bim gwas.fam \
-M genetic_map.txt \
-O gwas.phased

shapeit \
--input-gen gwas \
-M genetic_map.txt \
-O gwas.phased

shapeit \
--input-vcf gwas.vcf \
-M genetic_map.txt \
-O gwas.phased
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.

对于gen/sample文件格式,可以通过​​gtool​​这个软件来进行格式转换,

2. genetic map

参考基因组对应的连锁图谱,可以提高单倍型分析的准确性,官方提供了hapmap项目的连锁图谱供下载,链接如下

 ​http://mathgen.stats.ox.ac.uk/genetics_software/shapeit/shapeit.html#formats​

使用shapeit进行单倍型分析_sed_03

这个是一个可选参数,没有的情况下软件会根据线性模型来进行估算。

3. output phased haplotypes

默认用后缀为haps和sample的两个文件来描述单倍型, haps文件的内容如下所示

使用shapeit进行单倍型分析_html_04

每列之间用空格分隔,第一列为snp位点所在的染色体名称,第二列为snp id,第三列为染色体的位置,第四列为不同样本中该位点的分型结果,0代表ref allle, 1代表alt allel, 每两列对应一个样本。

后缀为sample的文件内容如下所示

使用shapeit进行单倍型分析_sed_05

用来描述样本的信息,同样的空格分隔,前两行内容固定,后续每一行代表一个样本,以上只是该文件最基本内容的展示,还可以有更多的列,用来描述样本的表型信息。

在impute2中,phased reference panel会用hap/legend/sample3个文件来表示,通过下列代表可以进行格式转换

      
      
shapeit \
-convert \
--input-haps gwas.phased \
--output-ref gwas.phased.hap gwas.phased.leg gwas.phased.sam
  • 1.
  • 2.
  • 3.
  • 4.

不同格式的详细解释参考以下链接

 ​http://mathgen.stats.ox.ac.uk/genetics_software/shapeit/shapeit.html#formats​

事先对需要填充的样本进行phasing, 可以有效提高填充的运行效率,如果后续使用impute2进行基因型填充,推荐使用shapeit对需要填充的样本进行单倍型分析。

·end·

—如果喜欢,快分享给你的朋友们吧—


扫描关注微信号,更多精彩内容等着你!

使用shapeit进行单倍型分析_html_06

原网站

版权声明
本文为[51CTO]所创,转载请带上原文链接,感谢
https://blog.51cto.com/u_10721944/5398633