Circos(Krzywinski等人,2009年)是一个用于以圆形布局可视化数据的软件包。这使得Circos非常适合探索对象或位置之间的关系。Circos图表已经出现在成千上万的科学出版物中。尽管最初设计用于可视化基因组数据,但它可以根据任何领域的数据创建图表。
文章图形复现
图形/数据来源:
Teles Alves I, Hiltemann S, Hartjes T, et al. Gene fusions by chromothripsis of chromosome 5q in the VCaP prostate cancer cell line. Hum Genet. 2013;132(6):709-713. doi:10.1007/s00439-013-1308-1
1.1 外层骨架(Ideogram)
对于基因组数据,通常是染色体,但也可能是物种、基因,或者是另一个分辨率级别,这取决于你想要展示的关系。对于非基因组数据,这可能是人群中的个体、国家,或者是你想用来进行分组的数据的任何其他主要方面。
1.2 数据轨道(Data Tracks)
在骨架之内,我们可以绘制数据轨道。有不同类型的图表可用,例如:
散点图(Scatter plot)
线图(Line plot)
直方图(Histogram)
热图(Heatmap)
方块图(Tile)
文本(Text)
连接(Link)
条带(Ribbons)
轨道可以进行很多定制,一些相关的概念包括:
Radius
:轨道的半径决定了它在中心(0)和表意图(1)之间的位置。
Rules
:可以定义规则,根据数据点的值改变数据点的颜色,例如。
Axes and backgrounds
:可以在数据轨道上绘制轴和背景。
2. 复现步骤
工具位置:UseGalaxy.cn首页 > Graph/Display Data > Circos visualizes data in a circular layout
或者:
https://usegalaxy.cn/root?tool_id=toolshed.g2.bx.psu.edu/repos/iuc/circos/circos/0.69.8+galaxy12
2.1 数据准备
可以下载原文中的数据上传到网站:
https://zenodo.org/record/4494146/files/VCaP_Copy-Number.tsv
https://zenodo.org/record/4494146/files/VCaP_B-allele-Frequency.tsv
https://zenodo.org/record/4494146/files/VCaP-highConfidenceJunctions.tsv
https://zenodo.org/record/4494146/files/hg18_karyotype_withbands.txt
或者用网站上整理好的共享数据:
网站首页(UseGalaxy.cn)> 数据共享 > 数据库 > circos,该目录下有4个测试文件:
hg18_karyotype_withbands.txt,染色体骨架文件
circos-sv.tsv,结构变异信息
circos-cnv.tsv,拷贝数变异信息
circos-baf.tsv,次等位基因频率
2.2 Ideogram
由于圈图要呈现的数据很多,参数设置复杂,因此不可能一次就画好,而是有一个不断迭代的过程,一圈一圈地画。
操作:设置Ideogram
我们首先只设置骨架文件,其他参数保持默认:
运行看看结果:
可以看到,只有一个圈。
我们接着设置:
点击“Run Tool”,等待运行结束,点击结果文件右边的铅笔图标,将文件改名为:Circos Plot ideogram。
染色体定义的格式如下:chr - ID LABEL START END COLOR
前两个字段始终是chr,表示该行定义了一个染色体,以及 -。第二个字段定义了父结构,仅用于染色体条带定义。
ID 是数据文件中使用的标识符,而 LABEL 是将出现在图像上的骨架旁边的文本。
START和END定义了染色体的大小。核型文件应该存储整个染色体的大小,而不仅仅是您希望绘制的区域。我们可以使用其他参数仅绘制数据的子集(例如,只有一个染色体)。
COLOR参数是可选的,要使用内置的颜色方案,请再次在此列中使用chr1、chr2等。
2.3 数据轨道一:结构变异
结构变异需要提供两个断点的位置,如下:
chromosome start end chromosome start end
第一个断点的染色体编号,开始位置,结束位置
第二个断点的染色体编号,开始位置,结束位置