基因/LncRNA进化保守性分析(下)

发布网友 发布时间:13小时前

我来回答

1个回答

热心网友 时间:56分钟前

在基因/lncRNA进化保守性分析中,直接从UCSC Genome Browser下载人类基因组序列保守性分值文件的方法耗时过长,无法满足分析要求。因此,我们寻找到了Bioconductor提供的phastCons100way.UCSC.hg38注释包,以及其他类似包如phastCons7way.UCSC.hg38,phastCons30way.UCSC.hg38等,这些包是基于GenomicRanges对象构建的,通过SQLite数据库运行,速度远高于处理文本文件。

在R运行环境中,首先安装phastCons100way.UCSC.hg38包以及GenomicRanges等依赖包。载入运行环境后,对注释文件构造基因/lncRNA注释信息对象。对于蛋白编码基因,可以使用‘TxDb.Hsapiens.UCSC.hg38.knownGene’注释包,但为了对lncRNA注释,我们从GENCODE网站下载lncRNA注释文件,然后利用'GenomicFeatures'包从头构造注释信息。

通过构造注释对象并选择所有有表达序列部分的注释信息,验证所有染色体在保守性分支对象中是否存在。使用unlist函数将exonsbygene对象转换为GRanges对象。利用gscores函数提取所有econ部分的平均保守性分值,并将结果还原成以基因为单位。最后将信息提取出来,生成一个data.frame对象,从而获取基因名和保守性分值。

接下来,通过分析不同分组的lncRNA,发现肿瘤特异性的lncRNA(cancer-specific),多种肿瘤相关的lncRNA(moderate),以及所有肿瘤相关的lncRNA间并无显著差异。这揭示了可能与lncRNA的表达无关。

进一步探究启动子区的保守性是否存在差异,使用promoters函数获取所有lncRNA的启动子注释信息,发现结果是转录本水平的注释而非基因水平。通过使用rtracklayer包解决问题,载入注释文件并筛选基因水平注释,定义启动子区域为转录起始位点上游1500bp,下游200bp。提取基因ID及保守性分值,最后得到数据框,显示肿瘤特异性lncRNA的转录启动子区序列保守性明显低于其他两组。

总结,通过尝试不同途径对LncRNA启动子区域序列保守性进行注释和分析,采用R-BioConductor工具显著加快了分析速度。利用提供的数据分析和注释包可以简化相关工作,节省时间,提高效率。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com