怎样批量计算基因编码区长度

如题所述

有些时候我们需要知道转录本长度,比如在使用RNA-seq计算FPKM的时候,为了准确地评估不同基因的表达量,一般是用覆盖该基因/转录本的总reads数除以基因/转录本的长度,有些时候我们需要知道基因编码区的长度,比如在使用VAAST评估致病候选基因的时候,有些基因因为编码区特别长(如TTN)总是排名靠前,如果考虑到它的编码区长度后,排序将会更加科学。 那么怎样获得基因编码区长度呢?这个问题看起来比较简单,只要将每个外显子的长度加起来就可以了,对于单个转录本可以通过NCBI的CCDS数据库查询,但是基因有多个转录本,每个转录本的编码区有重合,所以基因编码区不是每个转录本编码区的简单相加,所以要想准确地获得每个基因的编码区长度并不容易,而且目前并没有现成的数据库,经过游侠在网上摸索后将相关方法整理如下,供大家参考。首先从sanger网站下载基因注释文件GTF,ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_19/gencode.v19.annotation.gtf.gz。然后在R中使用GenomicFeatures工具包。library(GenomicFeatures)txdb <- makeTranscriptDbFromGFF("yourFile.gtf",format="gtf")收集每个基因的编码区编号exons.list.per.gene <-cdsBy(txdb,by="gene")通过reduce函数避免重复计算重叠区exonic.gene.sizes <- lapply(exons.list.per.gene,function(x){sum(width(reduce(x)))})生成的gene ID为ensemble编号,可以通过https://biodbnet-abcc.ncifcrf.gov/db/db2dbRes.php,转换为gene symbol。另外游侠已经处理好了人类所有基因的编码区长度,如果有需要的话,可以在微信号留言索取。
基因检测与解读(gh_561c4ccc5356)

 查看原文  分享到微信  文章为作者独立观点,不代表微头条立场
基因检测与解读的最新文章

匪夷所思的遗传方式
我们知道常染色体隐性遗传一般是有缺陷的染色体分别来自父母两方,根据突变位点的位置是否相同分为纯合突变与复合杂合突变,但是你听说过两个有缺陷的位点全部来自父母一方吗?
基因检测与解读·09月19日 10:17

外显子
重新分析之前未确诊的临床全外显子案例可提高诊断率
本文主要介绍Genetics in Medicine(IF:7.7)杂志上的一篇论文pmid:27441994。
基因检测与解读·09月13日 12:14

基因检测文章
基因检测与解读文章列表
关注微信号回复数字查看文章
基因检测与解读·09月13日 12:14

RVAS是个什么鬼?居然将替代GWAS
在过去的8年中,GWAS(genome-wide association studies)研究被广泛地应用于解析遗传基因与复杂常见疾病和数量性状。
基因检测与解读·09月07日 11:17

样本
遗传家系样本采集有捷径
最近游侠君应邀参加某同学国自然课题讨论:一个大家系某种疾病的致病基因,当他拿出家系图并标出哪些样本有DNA时,游侠很吃惊,30多人的大家系居然只有5个人有DNA样本
基因检测与解读·08月26日 06:09

基因检测遗传病如何
临床医生该如何选择遗传病基因检测
最近本公众号接到一位女士的后台留言,请游侠帮忙解读基因报告,她有两岁的女儿,血小板低,治疗1年略有好转但仍不达标,无其他临床表现
基因检测与解读·08月26日 06:09

最大的项目
世界最大的先天性发育异常遗传研究---DDD项目
作者:周在威概况 “DDD计划”是一项创新型的罕见病课题项目,DDD是Deciphering De
基因检测与解读·08月13日 00:15

外显子如何
如何分析全外显子拷贝数变异
介绍XHMM与CODEX分析全外显子CNV。
基因检测与解读·08月13日 00:15

如何
如何从散发病例中寻找新致病基因
临床遗传医生在门诊过程中经常遇到不能明确基因诊断的病例,目前即使是全外显子测序也大约只有30%的遗传病能够找到致病基因,剩下的这些未明确基因案例积累多了对于发现新的致病基因就非常有价值
基因检测与解读·07月25日 10:37

动画
什么是DNA?3d动画告诉你
想查看原始动画的朋友请下载
基因检测与解读·07月25日 10:37

网站中心
以罕见病患者为中心的MyGene2网站
华盛顿大学的孟德尔基因组学医学中心创建了mygene2网站,使得患者及其家属参与临床医生和科学家寻找罕见疾病相关基因成为可能
基因检测与解读·07月25日 10:37

染色体基因组
寻找染色体断裂点-捕获测序or全基因组测序?
今天微信上有朋友询问染色体内倒位,通过捕获测序可以检测具体的断裂点吗?首先从理论上来说肯定是可以的,但是从性价比上来说肯定不如直接从全基因组测序。
基因检测与解读·07月25日 10:37

外显子
浅谈临床全外显子基因数据分析
临床全外显子测序方法与平台与科研外显子没有区别,都是利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序
基因检测与解读·07月25日 10:37

基因检测文章
基因检测与解读文章列表
关注微信号回复数字查看文章
基因检测与解读·07月25日 10:37

怎样批量计算基因编码区长度?
有些时候我们需要知道转录本长度,比如在使用RNA-seq计算FPKM的时候,为了准确地评估不同基因的表达量,一般是用覆盖该基因/转录本的总reads数除以基因/转录本的长度
基因检测与解读·07月25日 10:37

腹痛加反复低热也许是基因惹的祸
最近佛蒙特大学的Leonard教授建立了一个“了解你的基因组(Understand Your Genome)”工作组,其中73名佛蒙特大学教职工自愿测序他们的全基因组
基因检测与解读·07月17日 21:23

你知道基因有多长吗?
很多不懂生物的朋友会问我,基因有多长啊?这是个难以给出确定答案的问题,基因是一段有功能的DNA片段,由ATGC四种碱基组成,每个碱基成为1个bp,有的基因很长,目前最长的基因是DMD基因,全长2,220,291bp(来自NCBI)
基因检测与解读·07月16日 21:24

基因检测
基因检测报告解读不可缺
最近公众号收到一位读者的求助,希望游侠帮忙解读一下基因检测报告,她本人非常担心自己的健康状况,认为自己经过基因检测已经确诊为一种遗传病,不敢涂口红,不敢吃鸡肉,连家里的装修都停了
基因检测与解读·06月09日 10:21

科学家发现冠心病
科学家发现罕见基因位点可显著降低冠心病发病风险
随着人类的不断繁衍,基因也在不断的突变进化,大多数时候这些突变有可能会破坏人体的健康,比如单基因遗传病,但有些基因突变也许能够保护我们的健康,只是由于科学研究手段的缺乏,导致很难发现这样的有益突变
基因检测与解读·05月30日 01:29

基因检测欢乐颂做什么
《欢乐颂》中的安迪该做什么基因检测
最近电视剧《欢乐颂》非常火,剧中安迪的妈妈及外婆都患有严重的精神疾病,而弟弟小明有严重的智力低下
基因检测与解读·05月21日 11:48

地中海遗传病
一例疑似家族性地中海热遗传病的遗传分析
近日基因检测与解读微信公众号收到一位读者的求助,希望游侠能够帮忙解读基因检测报告
基因检测与解读·05月20日 00:30

基因组
CNV专题二:CREST分析全基因组拷贝数变异
这一期主要介绍利用CREST (Clipping REveals STructure)软件分析人全基因组测序拷贝数变异,上一期游侠提到目前的软件主要利用三种feature来计算CNV,而CREST主要利用其中的一种来计算
基因检测与解读·05月02日 15:09

基因组
CNV专题一:genomestrip2分析全基因组拷贝数变异
CNV又称拷贝数变异,包括缺失与重复,属于非平衡易位的一种,据文献估计每个人都有几千个CNV,这些CNV有大有小,很多都位于基因间或基因的内含子中
基因检测与解读·04月18日 00:31

一起学
一起学NGS数据分析之位点筛选二
在前面游侠介绍了利用Annovar注释之后的信息进行筛选位点,今天介绍VAAST软件如何进行候选致病位点的筛选
基因检测与解读·03月20日 22:21

资源
遗传家系资源交流平台
最近游侠接到一位读者的电话,他有一个3代2人患病的小家系,做了3例全外显子捕获测序筛选下来得到几十个候选基因位点,他想询问下一步该如何继续研究?
基因检测与解读·03月01日 12:23

一起学操作系统
一起学NGS数据分析之操作系统
由于很多免费及开源的软件都是在linux系统下运行,所以如果你要想学习生物信息分析,安装linux系统是逃不掉的,不过不要太担心,现在的linux系统早已不是当初的DOS命令行了
基因检测与解读·01月29日 00:08

基因组
人全基因组测序究竟强在哪里?
作为国内为数不多接触并分析过人全基因组测序(WGS)分析的人员之一,看到很多从业人员甚至专业的生物信息人员都对WGS不了解,游侠觉得有必要向大家普及一下全基因组测序究竟强在哪里!
基因检测与解读·01月19日 17:20

一起学检测
一起学NGS数据分析之肿瘤突变检测
上一节我们讲述了germline variation如何检测,这一期聊聊肿瘤体细胞之突变检测
基因检测与解读·01月15日 23:50

一起学检测
一起学NGS数据分析之检测突变
很久没有更新了,有读者留言期待后面的文章,所以我又开始写了,下次大家看到我没有更新,及时留言提醒我啊,不然我又偷懒了!
基因检测与解读·01月15日 03:50

如何
如何根据表达谱芯片数据巧妙设计定量PCR引物的位置
有朋友做完表达谱芯片寻找到有差异表达的基因后,设计引物定量PCR验证会发现对照样本与处理样本无显著性差异?这究竟是怎么回事呢?
基因检测与解读·01月06日 03:27

一起学
一起学NGS数据分析之数据质控
拿到基因测序公司的原始数据后,一般是clean data又称PF data,首先要做的就是查看数据量够不够以及测序的质量怎么样,目前最为流行的数据质量查看软件就是FastQC
基因检测与解读·01月03日 19:57

基因检测与解读
gh_561c4ccc5356
介绍基因检测新进展,交流临床基因测序结果,探讨基因数据分析流程与方法,发表自己对于基因行业的理解与看法,提供遗传咨询服务!
热门文章
1.空调室外机毁坏 物业公司有无责任
2.物业管理用房产权属于谁?
3.㊙男人苦,所以赌,男人忙,所以常常上错 床......(太精辟了)
4.▶小视频(很短,连看了7遍)
5.爱牙日|为宝宝的牙齿做点什么
6.【物管案例】业主起诉邻居私搭乱建,法院判限期拆除
7.忻州【小咖秀】058期:囡囡
8.㊙献给所有老同学
9. 水中分娩,你绝没见过......
10.《农村的玉米地里》一首歌 火了
最新文章
1.先抢先得 乐次元“爵无仅有”大礼包9月20日全面开售
2.Angelababy成茶叶商标(图)
3.你会调整后视镜吗?
4.3分16秒,正好拍到这一幕
5.【仲和堂】心如玉,世无双
6.10大坚果食用禁忌
7.人性/狗性/狼性
8.【仲和堂】中秋|天涯共此月圆时
9.汽车仪表指示灯,最全面的解释

基因检测与解读
gh_561c4ccc5356
介绍基因检测新进展,交流临床基因测序结果,探讨基因数据分析流程与方法,发表自己对于基因行业的理解与看法,提供遗传咨询服务!
本站文章来自网友的提交收录,版权归原作者所有,如需删除或申请收录,请联系微信号:iyipengcheng
我要入驻 公号大全
Copyright©2015 微头条 京ICP备14
温馨提示:答案为网友推荐,仅供参考
第1个回答  2016-08-19

      有些时候我们需要知道转录本长度,比如在使用RNA-seq计算FPKM的时候,为了准确地评估不同基因的表达量,一般是用覆盖该基因/转录本的总reads数除以基因/转录本的长度,有些时候我们需要知道基因编码区的长度,比如在使用VAAST评估致病候选基因的时候,有些基因因为编码区特别长(如TTN)总是排名靠前,如果考虑到它的编码区长度后,排序将会更加科学。       那么怎样获得基因编码区长度呢?这个问题看起来比较简单,只要将每个外显子的长度加起来就可以了,对于单个转录本可以通过NCBI的CCDS数据库查询,但是基因有多个转录本,每个转录本的编码区有重合,所以基因编码区不是每个转录本编码区的简单相加,所以要想准确地获得每个基因的编码区长度并不容易,而且目前并没有现成的数据库,经过游侠在网上摸索后将相关方法整理如下,供大家参考。首先从sanger网站下载基因注释文件GTF,ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_19/gencode.v19.annotation.gtf.gz。然后在R中使用GenomicFeatures工具包。library(GenomicFeatures)txdb <- makeTranscriptDbFromGFF("yourFile.gtf",format="gtf")收集每个基因的编码区编号exons.list.per.gene <-cdsBy(txdb,by="gene")通过reduce函数避免重复计算重叠区exonic.gene.sizes <- lapply(exons.list.per.gene,function(x){sum(width(reduce(x)))})生成的gene ID为ensemble编号,可以通过https://biodbnet-abcc.ncifcrf.gov/db/db2dbRes.php,转换为gene symbol。

第2个回答  2016-11-22
有些时候我们需要知道转录本长度,比如在使用RNA-seq计算FPKM的时候,为了准确地评估不同基因的表达量,一般是用覆盖该基因/转录本的总reads数除以基因/转录本的长度,有些时候我们需要知道基因编码区的长度,比如在使用VAAST评估致病候选基因的时候,有些基因因为编码区特别长(如TTN)总是排名靠前,如果考虑到它的编码区长度后,排序将会更加科学。
那么怎样获得基因编码区长度呢?这个问题看起来比较简单,只要将每个外显子的长度加起来就可以了,对于单个转录本可以通过NCBI的CCDS数据库查询,但是基因有多个转录本,每个转录本的编码区有重合,所以基因编码区不是每个转录本编码区的简单相加,所以要想准确地获得每个基因的编码区长度并不容易
首先从sanger网站下载基因注释文件GTF,ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_19/gencode.v19.annotation.gtf.gz。然后在R中使用GenomicFeatures工具包。library(GenomicFeatures)txdb <- makeTranscriptDbFromGFF("yourFile.gtf",format="gtf")收集每个基因的编码区编号exons.list.per.gene <-cdsBy(txdb,by="gene")通过reduce函数避免重复计算重叠区exonic.gene.sizes <- lapply(exons.list.per.gene,function(x){sum(width(reduce(x)))})生成的gene ID为ensemble编号,可以通过https://biodbnet-abcc.ncifcrf.gov/db/db2dbRes.php,转换为gene symbol。
第3个回答  2016-10-06
有些时候我们需要知道转录本长度,比如在使用RNA-seq计算FPKM的时候,为了准确地评估不同基因的表达量,一般是用覆盖该基因/转录本的总reads数除以基因/转录本的长度,有些时候我们需要知道基因编码区的长度,比如在使用VAAST评估致病候选基因的时候,有些基因因为编码区特别长(如TTN)总是排名靠前,如果考虑到它的编码区长度后,排序将会更加科学。 那么怎样获得基因编码区长度呢?这个问题看起来比较简单,只要将每个外显子的长度加起来就可以了,对于单个转录本可以通过NCBI的CCDS数据库查询,但是基因有多个转录本,每个转录本的编码区有重合,所以基因编码区不是每个转录本编码区的简单相加,所以要想准确地获得每个基因的编码区长度并不容易,而且目前并没有现成的数据库,经过游侠在网上摸索后将相关方法整理如下,供大家参考。首先从sanger网站下载基因注释文件GTF,ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_19/gencode.v19.annotation.gtf.gz。然后在R中使用GenomicFeatures工具包。library(GenomicFeatures)txdb <- makeTranscriptDbFromGFF("yourFile.gtf",format="gtf")收集每个基因的编码区编号exons.list.per.gene <-cdsBy(txdb,by="gene")通过reduce函数避免重复计算重叠区exonic.gene.sizes <- lapply(exons.list.per.gene,function(x){sum(width(reduce(x)))})生成的gene ID为ensemble编号,可以通过https://biodbnet-abcc.ncifcrf.gov/db/db2dbRes.php,转换为gene symbol。
相似回答