RSS分析,查看细胞类型特异性转录因子,需要先加载seurat对象,提取metadata信息,并进行分析!默认是点图!
human_data <- readRDS("~/Pyscenic/human_data.rds")
cellinfo <- [email protected][,c('celltype','group',"nFeature_RNA","nCount_RNA")]#细胞meta信息
colnames(cellinfo)=c('celltype', 'group','nGene' ,'nUMI')
######计算细胞特异性TF
cellTypes <- as.data.frame(subset(cellinfo,select = 'celltype'))
selectedResolution <- "celltype"
sub_regulonAUC <- regulonAUC
rss <- calcRSS(AUC=getAUC(sub_regulonAUC),
cellAnnotation=cellTypes[colnames(sub_regulonAUC),
selectedResolution])
rss=na.omit(rss)
rssPlot <-
plotRSS(
zThreshold = 3,
cluster_columns = FALSE,
order_rows = TRUE,
thr=0.1,
varName = "cellType",
col.low = '#330066',
col.mid = '#66CC66',
col.high = '#FFCC33')
rssPlot
image.png
我们也可以提取数据,用热图的方式呈现,这里我是用ggheatmap做的,也可以用pheatmap、complexheatmap或ggplot2做。
rss_data <- rssPlot$plot$data
devtools::install_github("XiaoLuo-boy/ggheatmap")
library(ggheatmap)
library(reshape2)
rss_data<-dcast(rss_data,
Topic~rss_data$cellType,
value.var = 'Z')
rownames(rss_data) <- rss_data[,1]
rss_data <- rss_data[,-1]
colnames(rss_data)
col_ann <- data.frame(group= c(rep("Neutrophil",1),
rep("Macrophage",1),
rep("mDC",1),
rep("T cell",1),
rep("Mast",1)))#列注释
rownames(col_ann) <- colnames(rss_data)
groupcol <- c("#D9534F", "#96CEB4", "#CBE86B", "#EDE574", "#0099CC")
names(groupcol) <- c("Neutrophil","Macrophage","mDC", "T cell","Mast")
col <- list(group=groupcol)
text_columns <- sample(colnames(rss_data),0)#不显示列名
p <- ggheatmap(rss_data,color=colorRampPalette(c('#1A5592','white',"#B83D3D"))(100),
cluster_rows = T,cluster_cols = F,scale = "row",
annotation_cols = col_ann,
annotation_color = col,
legendName="Relative value",
text_show_cols = text_columns)
image.png
第二个可视化:
将转录因子分析结果与seurat对象结合,可视化类似于seurat!
next_regulonAUC <- regulonAUC[,match(colnames(human_data),colnames(regulonAUC))]
dim(next_regulonAUC)
regulon_AUC <- regulonAUC@NAMES
[email protected] = cbind([email protected] ,t(assay(next_regulonAUC[regulon_AUC,])))
#自己选定感兴趣的或者比较重要的转录因子,这里我是随机的
TF_plot <- c("ZNF561(+)","FOXP3(+)","YY1(+)","HOXB2(+)",
"TBX21(+)","TCF12(+)","STAT2(+)","SOX21(+)",
"RBBP5(+)","NR2F6(+)","NELFE(+)","MAFG(+)")
DotPlot(human_data, features = TF_plot)+
theme_bw()+
theme(panel.grid = element_blank(),
axis.text.x=element_text(hjust =1,vjust=1, angle = 45))+
labs(x=NULL,y=NULL)+guides(size=guide_legend(order=3))
image.png
上面我们展示的是转录因子在不同细胞的评分,按照这个道理,我们依然可以选定某种细胞,看样本间转录因子的差别!
DotPlot(human_data, features = TF_plot, group.by = 'group')+
theme_bw()+
theme(panel.grid = element_blank(),
axis.text.x=element_text(hjust =1,vjust=1, angle = 45))+
theme(legend.direction = "horizontal",
legend.position = "bottom")+
labs(x=NULL,y=NULL)
第三个可视化:
展示转录因子平均活性!
cellsPerGroup <- split(rownames(cellTypes),
cellTypes[,selectedResolution])
regulonActivity_byGroup <- sapply(cellsPerGroup,
function(cells)
rowMeans(getAUC(sub_regulonAUC)[,cells]))
regulonActivity_byGroup_Scaled <- t(scale(t(regulonActivity_byGroup),
center = T, scale=T))
regulonActivity_byGroup_Scaled=na.omit(regulonActivity_byGroup_Scaled)
hm <- draw(ComplexHeatmap::Heatmap(regulonActivity_byGroup_Scaled, name="Regulon activity",
row_names_gp=grid::gpar(fontsize=6),
show_row_names = F))
hm #可视化所有的TF
当然了,全部展示没有啥意义,还是可以提取数据,可视化需要的TF!
我们也可以提取数据,用热图的方式呈现,这里我是用ggheatmap做的,也可以用pheatmap、complexheatmap或ggplot2做。RSS分析,查看细胞类型特异性转录因子,需要先加载seurat对象,提取metadata信息,并进行分析!上面我们展示的是转录因子在不同细胞的评分,按照这个道理,我们依然可以选定某种细胞,看样本间转录因子的差别!当然了,全部展示没有啥意义,还是可以提取数据,可视化需要的TF!更多精彩内容请至我的公众号---KS科研分享与服务。先加载需要的R包,都加载了,没毛病。
可扩展的SCENIC工作流程,用于单细胞基因调控网络分析
该存储库描述了如何对单细胞数据运行pySCENIC基因调控网络推断分析以及基本的“最佳实践”表达分析。 这包括:
独立的Jupyter笔记本电脑,用于交互式分析
Nextflow DSL1工作流程,它提供了一种半自动化且简化的方法来运行这些步骤
pySCENIC安装,使用和下游分析的详细信息
另请参阅《自然规约》中的相关出版物: : 。
有关此协议中步骤的高级实现,请参阅 ,这是pySCENIC的Nextflow DSL2实现,具有用于表达式分析的全面且可自定义的管道。 这包括其他pySCENIC功能(多次运行,集成的基于主题和基于轨迹的regulon修剪,织机文件生成)。
PBMC 10k数据集(10x基因组学)
完整的SCENIC分析,以及过滤,群集,可视化和SCope就绪的织机文件创建: |
(在真核生物中使用深度学习的激活域的预测因子)
PADDLE是从蛋白质序列预测转录因子激活结构域区域的工具。 PADDLE是一个深度卷积神经网络,经过酵母中的高通量激活测定数据训练,可以准确预测激活域的位置和强度。 已通过实验验证可预测人类细胞中人类蛋白质区域的激活。 参见 有关更多详细信息,请 。
这里包括:
PADDLE模型文件,用于使用TensorFlow加载(模型/)
用于输入PADDLE的Arg81酵母转录因子的序列和预测的二级结构(数据/)
使用PADDLE运行预测的函数(paddle.py)
Jupyter笔记本显示了有关野生型和突变蛋白序列(PADDLE_predictions.ipynb)的示例预测
对跨物种的所有核蛋白的PADDLE预测也已预先计算,可在。
由开发(联系方式: )。
MAESTRO(S的基于Odel等M A nalys(E S)英格尔-T细胞的ranscriptome和R egulö我)是一个综合的单细胞RNA-SEQ和ATAC-SEQ分析西装使用内置 。 MAESTRO结合了数十种工具和软件包,以创建一个集成的管道,从而可以从原始测序数据(fastq文件)一直进行比对,质量控制,细胞过滤,归一化,无监督聚类,差异表达,从而对scRNA-seq和scATAC-seq进行分析以及峰调用,细胞类型注释和转录调控分析。 目前,MAESTRO支持用于scRNA-seq协议的 , , ; 和用于scATAC-seq协议。
v1.0.0
释放MAESTRO。
v1.0.1
提供docker映像以方便安装。 请注意,泊坞窗不包括cellranger / cellranger ATAC以及相应的基因组索引。 请按照安装说明安装cell
转录因子通过与基因上游特定序列结合,调控着靶基因在特定的时间和空间以一定的强度表达.不同的转录因子之间通过多种方式相互组合,为这一调控过程提供了更多的可能.为了研究与表达相关的转录因子的调控模式,以GM12878细胞系作为研究对象,基于该细胞系的两种RNA-seq数据,得到了高、低表达基因集合,根据83种转录因子结合的ChIP-seq数据,在两个数据集中分别构建了与基因表达紧密相关的转录因子互作网络,并利用软件Cytoscape对网络进行可视化,从而直观地展现了高低表达基因中转录因子的相互作用模式.同时,利用WGCNA(Weighted Correlation Network Analysis)构建了转录因子的共调控网络,发现高表达基因集合的转录因子调控网络中的一些子网模式与WGCNA构建的共调控模块得到对照.最终在高表达基因转录因子相互作用网络中发现占据重要地位的转录因子BCL11A和特异的组合模式(NFYA-NFYB-SP1),另一种组合模式(BATF-IRF4)则同时存在于高低表达基因的网络中.
Cirrocumulus是用于大规模单细胞基因组数据的交互式可视化工具,具有以下功能:
在笔记本电脑,本地服务器,云VM或Google App Engine上运行
查看覆盖在图像上的空间转录组学数据
在URL中共享当前的可视化状态
与协作者安全共享数据集
创建点图,热图和小提琴图,以探索分类变量和表达之间的关系
探索由或 / 生成的完整差异表达结果
交互式创建和共享“ AND”或“ OR”过滤器
实时协作注释单元格类型
从预定义列表中快速加载多个功能
同时浏览多个功能和嵌入
快速交互探索数百万个单元的2和3维嵌入,包括缩放,平移,旋转(3-d)和套索工具
保存出版物质量图像
高度可定制的-例如,设置颜色图,点大小或是否对3d嵌入使用雾化以淡化远处的点
以 , , 或格式可视化数据集
安装软件包:
pip install cirrocumulus
通过命令行启动卷积云
SCENIC(单细胞重组网络推断和聚类)是一种从单细胞RNA序列数据推断基因调控网络和细胞类型的计算方法。
该方法的描述和一些使用示例可在《。
当前在R(此存储库)和Python中有SCENIC的实现。 如果您不太喜欢使用R,我们建议您检查一下SCENIC(其中包含Nextflow工作流程)和Python / Jupyter笔记本,以轻松运行SCENIC (强烈建议您批量运行SCENIC或更大的数据集)。 然后,可以在R,Python或SCope(Web界面)中浏览任何实现的输出。
有关在R运行SCENIC的更多详细信息和安装说明,请参阅以下教程:
这些示例的输出位于: :
常见问题:
2021/03/26:
新教程可
2020/06/26:
该SCENICprotocol包括Nextflow工作流程,并pySCENIC笔记本现在正式发布。 有关详细信息
单细胞基因可视化的热图是一种常用的方法,用于展示单细胞转录组数据中基因的表达水平。热图可以将每个单细胞样本作为行,每个基因作为列,通过颜色编码来表示基因的表达量。
在热图中,每个单细胞样本的表达量会被映射到一种颜色上,通常是使用一个渐变色带,从低表达到高表达逐渐变化。这种颜色编码方案能够直观地展示不同基因在不同样本中的表达水平差异。
通过观察热图,我们可以快速发现哪些基因在不同细胞中具有相似的表达模式,或者在特定细胞类型中高度表达。这对于理解细胞类型的差异以及基因调控网络的构建非常有帮助。
要生成单细胞基因可视化的热图,通常需要进行以下步骤:
1. 数据预处理:包括基因表达量归一化和筛选、细胞聚类等。
2. 确定要展示的基因集合:可以选择感兴趣的特定基因或者整个转录组。
3. 设计热图布局:决定行和列的顺序,可以根据细胞聚类结果或者基因的相关性进行排序。
4. 颜色映射:将表达量映射到颜色上,可以使用预定义的调色板或者自定义的颜色方案。
5. 绘制热图:使用适当的软件或编程语言进行绘制,如R、Python中的seaborn、matplotlib等。
希望以上信息对你有所帮助!
olivia 维维: