geo数据挖掘实战系列 (geo数据挖掘工具)

随着测序技术的蓬勃发展,科研也进入了大数据时代。高通量测序分析在科研领域中遍地开花,只要你随便翻开几篇文献,就能找到microarray、RNA-seq等熟悉的字眼。

但是生物信息学的数据挖掘绝大数人都是一个表层状态,高深莫测的生信技术,望而止步的代码,看上去杂乱无章的数据,都是大家不敢深入研究的拦路虎。

“不敲代码、动动手指点点鼠标,就能进行初级的大数据挖掘和分析,甚至找到一个独属于自己的小课题”这些是不是你的梦?没错,真的有这样的好东西,RNA-seq数据挖掘的在线工具——BioJupies,迷倒万千科研人的生信数据挖掘神器。

BioJupies

网址: https://amp.pharm.mssm.edu/biojupies/

小白是不是还担心不会用这个网站?

贴心的BioJupies在网站主页上写清楚了在该网站上进行数据分析的一个基本步骤。

如果觉得本文的描述不够详细的可以直接翻译整个网页自己去摸索下,网站上每页都有非常详细的说明。

第一步:上传数据或者是从数据库获取数据

第二步:选择数据分析工具

第三步:生成数据分析结果报告

geo数据挖掘,geo数据挖掘神器

点击Get Started你就能开始你的表演了~

geo数据挖掘,geo数据挖掘神器

在弹出选择数据的页面:

①可以选择GEO公开数据库中9000多个已经发表的数据进行分析(根据物种、组织类型、发表年份或、GEO样本id号搜索数据。

②可以上传自己的数据

geo数据挖掘,geo数据挖掘神器

如何进行数据分析?

1、上传数据

点击中间的your data模块可上传自己的数据。

geo数据挖掘,geo数据挖掘神器

然后需要选择上传的数据格式。有两个数据类型可供选择,左边是基因表达的定量数据,右边是原始的测序数据,fastq样本测序文件。

这里选择基因表达矩阵进行输入(点击Gene Expression Table),点击空白处可以选择本地的文件进行上传。

geo数据挖掘,geo数据挖掘神器

可以直接把数据拖进这个框内,也可以点击这个框内的任意位置上传数据。

注意:所上传的数据必须是原始的counts文件,并建议使用基因symbol作为姓名。

geo数据挖掘,geo数据挖掘神器

这里给案例数据给大家做操作演示。

有兴趣也可以直接用网站上的示范数据去练手~(上图中红框右下角处点击Example就会出现案例数据),看网站的案例数据,大家自己在上传的时候,数据就应该是这个格式。第一行是基因名,内容是counts数据。

geo数据挖掘,geo数据挖掘神器

数据出来以后,点击Contiune到下一步。

点击Continue,填写样本信息。示例数据包含六个样本,可以选择在左侧手动填写,或在右侧上传一个metadata文件导入样本信息。

geo数据挖掘,geo数据挖掘神器

选择手动输入每个样本所属的组别信息,大家根据自己的需求填写就可以了。

geo数据挖掘,geo数据挖掘神器

2、选择分析模块以及设置参数

填写完成以后再点击Contiune到下一步。

进入到数据分析模块,界面中涵盖了转录组的基础分析内容, PCA,聚类分析等等,当然也包括:差异分析,火山图,富集分析等等。

分析的内容可以通过分析栏目右边的add和remove按钮去添加和删除分析。前三个是默认有的,后面的有需要自己可以手动添加。

geo数据挖掘,geo数据挖掘神器

点击more info按钮可以展开查看该分析的详细描述。

geo数据挖掘,geo数据挖掘神器

继续点击Contiune

接下来需要填写差异分组,即设置进行差异分析的对照组和实验组(点击分组)。

geo数据挖掘,geo数据挖掘神器

选择好了之后,继续点击Continue,进入选择参数的页面,结果会以notebook的格式进行储存。

下面是分析模块参数的选择和设置:点击红框按钮就能展开进行设置。

geo数据挖掘,geo数据挖掘神器

比如PCA分析,可以选择前多少的高变基因、标准化方法、是否使用z-score以及是否交互式界面来进行分析。

geo数据挖掘,geo数据挖掘神器

再比如聚类分析,也可以选择前多少的高变基因、标准化方法进行分析。

geo数据挖掘,geo数据挖掘神器

3、*载下**分析报告

当设置好需要分析的内容的全部参数之后,就可以会回到该页面上方点击generate notebook生成分析结果。

geo数据挖掘,geo数据挖掘神器

等待一会就会出现以下页面,点击Open Notebook就能打开分析报告。

geo数据挖掘,geo数据挖掘神器

4、分析报告解读

一个自动化的分析报告,图片数据一应俱全,大家可以看下得到的分析报告。

geo数据挖掘,geo数据挖掘神器

报告一共包括4大部分:Introduction、Results、Methods和References。

①Introduction

包含各个分析模块的超链接,点击超链接可以跳转到下面的对应的分析模块。

②Results

是上传的数据以及样本信息;还有在前面选择的PCR、聚类分析等这些分析模块的分析结果。

③Methods

该部分对上面我们所有分析用到的方法进行了简单总结,大家可以通过这里的描述对分析方法进行简单的了解。

④References

这就是整个报告的内容,大家把链接保存下来,就可以反复查看了。当然每一部分的结果大家都可以*载下**下来,也可以通过调整前面的参数对结果进行进一步的调整。

注意:整份分析报告是jupyter nbviwer这样一个Notebook形式,如果想完整*载下**保存整个Notebook需要安装python等等其它的一些软件,白介素同学做了简单测试,但是觉得比较复杂,可能不大适合初学者,因此这里不再做详细介绍了,不过提供的单个*载下**数据已经够用了。

最后,当我们手中没有已经定量好的结果,而是只有原始下机的fastq文件时,BioJupies也是支持比对和定量分析的。大家可以去试试。

  • 文末福利【SCI英语科研论文写作视频+PPT],私信回复关键字母“SCI英文”即可领取!(一定要私信哦~点击我的头像进入主页面,点击右上角私信按钮)即可免费领取~
  • 希望大家将此文章进行分享,转载,让更多需要的朋友看到,这样不仅自己得到帮助,也能帮助到其他人,谢谢大家~