作者: 董静,宋瑞雪,尚雪恬,王颖超,刘秋月,张治国,贾红彦,黄麦玲,朱传智,孙琦,杜博平,邢爱英,李自慧,张蓝月,潘丽萍,张宗德
共同第一作者及单位: 董静和宋瑞雪,首都医科大学附属北京胸科医院/北京市结核病胸部肿瘤研究所/耐药结核病研究北京市重点实验室
通信作者及单位: 潘丽萍和张宗德,首都医科大学附属北京胸科医院/北京市结核病胸部肿瘤研究所/耐药结核病研究北京市重点实验室
Identification of important modules and biomarkers in tuberculosis based on WGCNA.
Dong J, Song R, Shang X, Wang Y, Liu Q, Zhang Z, Jia H, Huang M, Zhu C, Sun Q, Du B, Xing A, Li Z, Zhang L, Pan L, Zhang Z.
Front Microbiol, 2024, 15:1354190.
doi: 10.3389/fmicb.2024.1354190.
PMID: 38389525.
前言
结核病是由结核分枝杆菌( Mycobacterium tuberculosis , MTB)感染引起的慢病传染性疾病,全球约有1/4的人口感染了MTB。结核病仍然是世界范围内因感染引起死亡的主要原因之一。尽管近年来已对结核病发生发展的机制进行了一定研究,但对于结核病异常基因表达谱及特异分子的功能和作用机制仍不明确。因此,全面了解结核病发病机制和调控网络有助于结核病诊疗新方法的开发。
包括基因芯片、二代测序、单细胞测序等在内的高通量基因组分析技术的发展有助于促进筛选和鉴定关键生物标志物。近年来,越来越多的研究人员开始关注非编码RNA介导的宿主免疫应答。其中长链非编码RNA(long non-coding RNA, lncRNA)是占比最高的非编码RNA,约占80%。既往研究提示,lncRNA在包括结核病在内的多种疾病的发生发展中发挥着重要的生物学功能,有望作为生物标志物辅助诊断各类疾病。
在本研究中,我们对结核病患者和健康者的外周血单个核细胞(peripheral blood mononuclear cell, PBMC)进行了ceRNA芯片分析,阐明结核病患者PBMC中lncRNA的表达谱变化,结合加权基因共表达网络分析(weighted gene co-expression network analysis, WGCNA)确定与结核病相关的重要模块和lncRNA。本研究旨在揭示结核病患者lncRNA表达谱,为探索lncRNA在结核病发生发展中的作用机制提供理论基础。
方法
1. 研究对象: 结核病患者招募于首都医科大学附属北京胸科医院,依据中国国家卫生健康委员会制定的《WS 288—2017肺结核诊断》标准进行纳入。健康者分别招募于北京市昌平区社区健康筛查人群和首都医科大学附属北京胸科医院既往无结核病病史、肺部影像学检查无异常、T-SPOT.TB阴性体检人群。本研究通过首都医科大学附属北京胸科医院伦理委员会批准。
2. 血液样本采集: 采集肝素抗凝血,使用Ficoll淋巴细胞分离液分离PBMC,TRIzol试剂裂解后冻存于−80°C,避免反复冻融。
3. 总RNA提取: 使用miRNeasy Mini试剂盒(217004,QIAGEN,德国)提取总RNA。提取时加入DNA酶(79254,QIAGEN,德国)以去除基因组或游离DNA污染。使用RNA分子完整性指数≥7.0和28S/18S >0.7的RNA进行后续实验。
4. ceRNA芯片分析: 采用Agilent Low Input Quick Amp Labeling Kit(Cat.# 5190-2305, Agilent technologies, Santa Clara, CA, US),按照标准操作流程对样品总RNA进行放大和标记,并使用RNeasy mini kit (Cat.# 74106, QIAGEN, GmBH, Germany) 纯化标记后的cRNA。按照Agilent表达谱芯片配套提供的Gene Expression Hybridization Kit(Cat.# 5188-5242, Agilent technologies, Santa Clara, CA, US),在滚动杂交炉中65 ℃,10 rpm,滚动杂交17 h,并在洗缸中洗片,洗片所用的试剂为 Gene Expression Wash Buffer Kit (Cat.# 5188-5327, Agilent technologies, Santa Clara, CA, US)。完成杂交的芯片采用Agilent Microarray Scanner (Cat.# G2565CA, Agilent technologies, Santa Clara, CA, US) 进行扫描。使用Feature Extraction software 10.7读取数据,最后采用R软件中的limma包进行归一化处理,所用的算法为Quantile。
5. 逆转录和qPCR: 使用ReverTra Ace qPCR RT试剂盒(FSQ-101,TOYOBO,JPN)将200 ng纯化的总RNA逆转录为cDNA。将2 μl cDNA、10 μl PowerUp™SYBR™Green Master混合物(A25742,Thermofisher,MA,US)和2 μl上下游引物混合。在QuantStudio 7实时荧光定量PCR系统(Thermofisher,MA,US)上进行qPCR检测,程序如下:50 ℃ 2 min,95 ℃ 10 min,然后95 ℃ 15 s和60 ℃ 1 min,完成40个循环。以GAPDH为内参,采用2^(−ΔCT)确定相对基因表达值。
6. WGCNA: 利用WGCNA软件包(R 4.2.1)构建基因共表达网络,并筛选与结核病显著相关的枢纽基因。纳入表达谱中中位数表达值前25%的基因进行WGCNA计算。计算模块与临床特征信息之间相关性最高的模块。计算模块中每个基因与模块的相关性MM(module membership)值和基因与性状的相关性GS(gene significance)值,并根据上述两个数值筛选出该模块中的基因作为潜在的结核病特异性生物标识。
7. 统计学处理: 使用SPSS v.4.0.1软件进行数据统计分析。定量资料根据正态分布与否分别采用 t 检验或Mann-Whitney U 检验进行分析。构建受试者工作特征(receiver operating characteristic, ROC)曲线,确定曲线下面积(area under the curve, AUC),并评价生物标志物的诊断价值。主成分分析采用python软件(v3.9.6)进行分析。使用数据库(https://david.ncifcrf.gov/home.jsp/)进行GO分析和KEGG分析。以双侧 P <0.05为差异有统计学意义。
结果
1. 研究人群特征: 10例结核病患者和10名健康者被纳入高通量ceRNA芯片分析。其中3份样本(2份来自结核病患者,1 份来自健康者)由于原始RNA质量较差未被纳入后续分析。此外,另一组包含31例结核病患者和32名健康者的独立样本被纳入用于验证生物标志物。
2. 差异lncRNA表达谱结果: 来自17份样本的原始ceRNA数据(8例结核病患者和9例健康者的样本),经归一化后在二维坐标系中表示。主成分分析显示,基于差异lncRNA能够很好地分辨结核病患者和健康者。以差异倍数>2或< 0.5及 P <0.05为阈值,共筛选获得1372个组间差异表达lncRNAs,其中在结核病患者中上调738个,下调634个。
3. 通过WGCNA和富集分析来识别关键模块: 为了进一步了解结核病患者的基因表达模式,我们使用WGCNA建立基因共表达网络。选择 β = 8 ( R2 = 0.85) 作为无标度网络构建的软阈值参数并构建邻接矩阵和拓扑重叠矩阵。分析结果显示,所有的基因被划分为不同的模块,共计16个模块,其中蓝色模块与结核病的相关性最高 ( R =0.95, P =4×10−9),提示蓝色模块中的基因与结核病高度相关。因此,选择蓝色模块进行进一步分析。
蓝色模块中,通过散点图和聚类分析,观察到MM和GS之间的相关性较高(相关性系数为0.95),根据MM>0.85、GS>0.9的标准,筛选蓝色模块中的lncRNA作为潜在的结核病特异性基因。结合lncRNA在两组间的差异倍数和统计学差异程度,筛选前10个显著上调和10个显著下调的基因进行进一步验证。
采用GO和KEGG对模块中基因进行分析,以预测关键模块的生物学功能。GO富集分析显示:生物过程分析中,大多数基因富集在细胞凋亡过程。细胞成分分析中,基因主要富集在细胞质;分子功能分析中,基因富集于蛋白结合功能。KEGG通路分析表明:蓝色模块中的基因富集于多种生物学途径,包括沙门氏菌感染、溶酶体、吞噬小体、结核病等。GO和KEGG分析结果表明,大多数蓝色模块内的基因富集于免疫相关的生物学过程,提示蓝色模块内基因可能在宿主抗结核感染免疫中发挥重要作用。
4. qPCR验证lncRNA: 蓝色模块内显著上调的10个lncRNA和显著下调的10个lncRNA中,共12个lncRNA在芯片样本及另一组独立样本中完成了qPCR验证,其他8个lncRNA由于与编码基因序列高度保守,导致无法设计特异性引物,因而未能被验证。12个差异表达基因中,结核病患者组中上调表达的共3个lncRNA(分别为lncRNA GBA、lncRNA FBXL5和lncRNA KRT8),下调表达的共9个lncRNA(分别为lncRNAPWP1、ENST00000620744.1、NR_003000、ENST00000417346.1、lncRNA BCL2L10、ENST00000516057.1、lncRNA ABHD17B、ENST00000607464.1和ENST000000583184.1)。qPCR分析显示,9个lncRNA的表达水平差异显著且与芯片结果一致,而lncRNA FBXL5和lncRNA KRT8的表达模式均与芯片结果不一致,组间lncRNA GBA的表达水平差异无统计学意义,不进行后续验证。
9个lncRNA在另一组独立样本(31例结核病患者和32名健康者)中进行qPCR验证。结果显示,lncRNAPWP1、ENST000006207000044.1、ENST000000417346.1、lncRNA BCL2L10、ENST000005601016057.1、lncRNA ABHD17B、ENST00000600000583184.1 在结核病患者中的表达水平均明显低于健康组。其中,8个lncRNA的表达模式均与芯片结果一致,而lncRNA NR_003000的表达模式与芯片结果不一致。
5. 差异lncRNA的诊断性能: 为了评估8个lncRNA的诊断性能,我们绘制了ROC曲线,以确定每个lncRNA用于区分结核病患者和健康者的敏感度和特异度。ROC曲线显示,lncRNA ABHD17B(AUC=1.000)和ENST00000607464.1(AUC=1.000)均是鉴别诊断效果最佳的生物标志物。
结论
本研究揭示了结核病患者PBMC中的lncRNA表达谱,并结合基因共表达网络模型确定了与结核病高度相关的关键基因模块。此外,在此模块*共中**鉴定获得8个存在组间显著差异的lncRNA,并通过ROC曲线分析证实上述lncRNA有望成为结核病诊断的潜在生物标志物。