细胞免疫系统是人类免疫的重要组成部分,它使用T细胞受体(TCR)识别主要组织相容性复合体(MHC)蛋白呈递的多肽形式的抗原蛋白。准确定义TCRs的结构基础及其与pMHC(多肽-MHC)的结合可以对正常和异常免疫提供重要见解,并有助于指导疫苗和免疫疗法的设计。考虑到实验确定的TCR-pMHC结构的数量有限,以及每个个体以及抗原靶标内TCR数量巨大,因此需要精确的计算建模方法。这里,报告了Web服务器TCRModel的一个重大更新,它最初是为了从序列中模拟未结合的TCR,现在利用AlphaFold的几个适配来从序列中模拟TCR-p-MHC复合体。这种方法名为TCRmodel2,允许用户通过易于使用的界面提交序列,并显示出与AlphaFold和其他基于基准对TCR-p-MHC复合体建模的方法相似或更高的准确性。可以在15min内生成复合物模型,并为输出模型提供置信度分数和集成的分子查看器。

57261693281111155

TCRmodel2 的工作流程和关键元素

T细胞免疫是针对病毒和病原体免疫保护的关键组成部分,如SARS-CoV-2。此外,T细胞和TCR经常在自身免疫中发挥作用,TCR在临床和临床前研究中越来越多地被用作治疗药物。了解TCR识别pMHC靶标的结构基础可以产生主要的机理见解,并提供基于结构的TCR特异性或亲和力的设计方法。虽然已经通过实验确定了数百个TCR-pMHC复合体的高分辨率结构,并可在PDB中获得,但这只占TCR的一小部分,高通量测序和筛选技术使大量抗原特异性TCR序列能够被常规鉴定。对TCR和TCR-pMHC复杂结构进行精确计算建模的能力将非常有用,有效地弥合TCR序列和3D结构信息之间的差距。这样的算法和模型可用于基于结构的TCR设计,或对“看不见的”TCR表位的概括性预测,这是计算生物学中的一个主要挑战,可能通过基于结构的方法来解决。

已经开发了几种算法来执行从序列或非结合结构中对未结合的TCR和TCR-pMHC复合体进行建模,主要通过基于模板的建模和能量最小化相结合。由于模板的局限性,加上TCR CDR环的灵活性和多样性,以及TCR-pMHC对接方向的广泛性,这些方法往往不成功。最近,基于深度学习的结构预测方法,特别是AlphaFold,在从序列中预测单体蛋白质和多聚体蛋白质的结构方面被证明是非常成功的。虽然最初对AlphaFold进行的TCR-pMHC复合体建模的基准测试显示出有限的成功(14例中有2例具有接近天然模型的准确性),但它在某些情况下的成功表明,原则上有可能通过深度学习“折叠和对接”TCR-pMHC复合体,最近的一项研究表明,AlphaFold可以微调和优化以模拟TCR-pMHC复合体。

在这里,TCRmodel2的开发,它是之前发布的TCR建模Web服务器TCRmodel的一个重大更新。以前的版本使用基于模板的建模和Rosetta从序列生成未结合的TCR结构模型,而TCRmodel2使用AlphaFold生成TCR-pMHC复合体的模型,并进行了多次修改以提高其速度和精度。TCRmodel2还可以使用相同的基于AlphaFold的框架生成未绑定TCR的模型。基于基准测试,TCRmodel2生成TCR-pMHC复合体的模型比AlphaFold和以前开发的TCR-pMHC建模方法更准确,并且比默认的AlphaFold协议快10倍以上。为了在结构免疫学方面取得进展,提供了TCRmodel2作为Web服务器,具有用户友好的功能,如多序列输入选项、交互式结构可视化和模型置信度评分。

TCRmodel2 界面

概述

TCRmodel2允许用户通过其主服务器界面提交TCR、肽和MHC序列来模拟TCR-pMHC复杂结构,并且它能够模拟I类和II类复杂结构。与最初的TCRmodel界面一样,用户可以直接输入所有序列,或从人和鼠的基因集生成TCR和MHC序列。TCRmodel2算法基于AlphaFold2的改编,具有TCR和MHC序列的重点数据库,以加快MSA特征建立、TCR模板选择的优化以及利用pMHC复杂结构作为模板,以提高AlphaFold的pMHC建模精度。用户可以选择在AlphaFold中执行模型的Amber松弛,正如AlphaFold出版物中所述,这可以改善某些模型中的局部几何形状(例如,消除侧链碰撞),但不会显著影响整体模型的精度。目前,TCRmodel2支持TCR与pMHC的复合体模型,而不支持TCR与MHC样分子CD1和MR1的复合体,这是因为这些分子呈递的小分子和脂类抗原在AlphaFold中不受支持。

时间

TCRmodel2服务器TCR-pMHC建模作业平均花费∼15min,使用专用的NVIDIA Titan RTX GPU并生成5个排名的TCR-pMHC模型。对未结合的TCR进行建模需要∼12min来生成5个模型。对模型使用模型松弛可以消除碰撞,但不会影响整体模型精度,需要∼1-2min(包括在上述时间中)。相比之下,在同一计算机集群上使用标准AlphaFold管道生成5个TCR-pMHC模型需要∼5-7h,其中90%以上的时间花在特征生成和MSA构建阶段。

TCRmodel2 建模精度

初始基准

为了对TCRmodel2的TCR-pMHC建模精度进行基准测试,从2018年4月30日之后发布的TCR3d组装了一组非冗余的TCR-pMHC结构,选择了截止日期以避免与AlphaFold(v2.2)模型训练集重叠。总共确定了48个测试用例,包括32个I类和16个II类复合体。TCRmodel2和AlphaFold 2.2模型与AlphaFold 2.2模型的建模精度比较(图1A)表明,TCRmodel2具有更高的精度,50%以上的情况下实现了中等或高CAPRI精度的模型。对于几种情况,如6R0E、6R2L、6ULN和7L1D,TCRmodel2的表现优于AlphaFold 2.2,后者在界面上对多肽进行了错误的建模,表明TCRmodel2使用的pMHC结构模板可能能够提高准确性。这两种基于AlphaFold的方法都优于先前开发的基于模板的TCR-pMHC建模方法ImmuneScape (图1A)和TCRpMHCmodels(仅生成I类TCR-pMHC模型图1C),以及TCR-pMHC对接算法TCRFlexDock。关于TCR-pMHC模型的CDR环精度和各个精度指标的详细信息可找小编获得。

81191693281198334

图1 TCRmodel2的成功率以及与其他建模算法的比较。

基准更新模型

发布了新的AlphaFold模型和算法(v2.3),使用AlphaFold2.3模型和管线实现了TCRmodel2,以测试它是否会导致使用AlphaFold2.2模型的TCRmodel2的精度提高。这是使用20个TCR-pMHC测试用例作为基准的,这些测试用例的发布日期在2021年9月之后(以确保不与AlphaFold 2.3培训集重叠),这是原始基准集的子集(14个I类和6个II类复合体)。在最近发布的基准测试集以及TCRDock上评估了TCRmodel 2.2、TCRmodel 2.3、AlphaFold 2.2和AlphaFold 2.3的建模性能,TCRDock是一种基于AlphaFold的算法,使用微调的TCR-pMHC模型和TCR-pMHC复合模板对TCR-pMHC复合建模(图1B)。对于这个集合,AlphaFold和TCRmodel2方法被允许使用2021年9月或之前的TCR和MHC结构模板,而更大的基准集合使用的是2018年4月的模板截止日期。基于这种比较,AlphaFold 2.3模型和管线导致了性能的提高,AlphaFold 2.3的性能优于AlphaFold 2.2,而采用AlphaFold 2.3模型的TCRmodel2的性能优于之前的TCRmodel2(使用AlphaFold 2.2模型)。TCRmodel2(AlphaFold 2.3模型)在高精度近本地模型上取得了20%的成功率,并在基准测试中显示出优于AlphaFold 2.3和TCRDock的建模精度。TCRmodel2和AlphaFold 2.3优于TCRDock的一种情况是7RRG;由于该复合体具有不寻常的TCR对接方向[74°TCR-pMHC交叉角,根据TCR3d],它可能更适合于不利用TCR-pMHC结构模板进行TCR-pMHC取向的方法,而不是使用来自实验确定的复杂结构的TCR-pMHC取向作为模板的TCRDock。鉴于其卓越的建模性能,采用AlphaFold 2.3模型的TCRmodel2被选为在TCRmodel2服务器中使用。

未绑定的TCRs

还对比了TCRmodel(使用结构模板生成模型)和AlphaFold(图S2),比较了使用TCRmodel2对单个TCR结构(没有pMHC)进行建模的情况。发现,TCRmodel2显示出与AlphaFold(v2.2和v2.3)相当的准确性,而AlphaFold和TCRmodel2都显示出优于TCRmodel的性能,特别是对于CDR3环,这些环更难建模[在最初的TCRmodel基准测试中观察到],但对肽识别至关重要。这表明,基于深度学习的方法可以克服完全或主要依赖结构模板的方法所面临的CDR3环建模挑战,包括CDR3环结构多样性、可用的有限结构模板以及环序列和结构之间的非平凡关系(以实现准确的模板识别)。

94621693281214920

图S2 非绑定TCR模型的CDR环建模精度

模型置信度评分

鉴于AlphaFold输出的模型置信度估计通常与模型精度相关,测试了在TCRmodel2中使用AlphaFold置信度估计区分准确和不准确的TCR-pMHC模型。为了最大限度地提高比较的数据量,考虑了来自TCRmodel2的48个案例的较大集合的模型,以及每个案例的5个模型。根据ROC AUC值,发现总体模型置信度分数(ipTM和pTM分数的组合)能够很好地区分中和高模型与不正确的模型(AUC=0.97)。所有其他测试的置信度指标都显示出类似的AUC值;因此,将重点放在模型置信度得分上,以供进一步分析。当比较模型置信度分数和模型精度(图2)时,观察到模型置信度和模型精度(用DockQ分数表示)之间有相对较高的相关性(r=0.75;P<0.001)。模型置信度得分也与个体准确度指标Fnat、L-RMSD 和 I-RMSD显著相关(图S3)。基于使用该分数和基准对模型精度辨别的分析,确定了表示可能准确的模型(≥0.85)或可能不准确的模型(≤0.49)(图2中显示为虚线)的模型置信度分数临界值为0.85%和0.49%;这些临界值可供TCRmodel2的用户参考,以衡量TCRmodel2生成的5个模型中是否存在可能的准确模型。正如AlphaFold也使用的一样,TCRmodel2使用模型置信度分数来对每个TCR-pMHC复合体的5个模型进行排名。

79831693281229756

图2 比较模型置信度得分和模型精度

70361693281244055

图S3 模型置信度得分与模型精度标准的比较

为了进一步评估结构未表征的TCR-pMHC复合体的预期模型置信度,使用TCRmodel2对从VDJdb数据库获得的I类和II类复合体进行建模。图S4显示了I类(N=414)和II类(N=47)复合体的模型置信度分数的分布,表明许多复合体的模型在高置信度范围(置信度≥0.85)中排名靠前,其中30%的I类和47%的II类复合体处于该水平。在略微更宽松的阈值下(置信度≥为0.75),TCRmodel2分别为77%的I类和89%的II类复合体生成了排名靠前的模型。

5671693281259369

图S4 TCR-pMHC序列的模型置信度分布

TCR 复杂建模示例

TCRmodel2中TCR-pMHC复合体建模的一个例子,该服务器被用于预测人TCR与免疫优势的SARS-CoV-2核衣壳表位的复合体的结构,该表位由HLA-B*07:02呈递。该复合体的结构尚未确定,也没有与针对该表位的TCR形成任何复合体,其序列来自一项研究中报道的一组来自COVID-19回收和未暴露的供者的TCR,以结合该肽(SPRWYFYYL)和MHC。值得注意的是,TCR包含TRBV27胚系基因和含有一个序列基序(PxxGxP)的长CDR3β序列(18个残基),作者发现这些特征与针对该表位的TCR有关。在输入报道的胚系基因和TCR CDR3序列(α:TRAV35/TRAJ39,CAGQLNAGNMLTF;β:TRBV27/TRBJ2-4,CASAPLVGAPEAKNIQYF)以及表位序列和MHC后,使用TCRmodel2生成5个复合体的结构模型。服务器在其4个pMHC模板中鉴定了靶标多肽和MHC(PDB:7LG0)的未结合pMHC结构,与目标序列同源性最高的TCRα和β链模板(每一个具有89%的同源性)包含与靶标匹配的胚系基因(α:5W1V,TRAV35;β:6VQO,TRBV27)。排名靠前的模型(图3)有很高的模型置信度分数(0.86),对预测的与pMHC(图3B)的界面的检查显示CDR3β,特别是PxxGxP基序(PLVGAP)与多肽以及TRBV27编码的胚系环与MHC进行了广泛的相互作用。这为观察到的针对该表位的TCR中TRBV27的偏好以及观察到的CDR3β环内的CDR3β序列基序提供了一种可能的机制解释。

66281693281281558

图3 TCRmodel2的TCR-pMHC建模输出示例。

(A)结果页面显示了排名靠前的模型的可视化效果,其中包括TCRα链红色、β链橙色、多肽青色和MHC蓝色。(B)靠前模型的TCR和pMHC之间的界面如图(A)所示,共享的CDR3β基序(序列:PLVGAP)呈绿色,显示为棒状。多肽残基显示为棒状,与MHC和/或肽相互作用的TCR CDR1β和CDR2β残基显示为棒状并带圆圈。使用PyMOL可视化结构。

第二个例子,TCRmodel2被用来模拟II类TCR-pMHC与肿瘤浸润性淋巴细胞TCR(命名为4285-TCR1)相互作用的结构,该TCR被发现靶向HLA-DRB1*13:01和具有R175H突变的p53新抗原。虽然已经报道了具有p53新抗原突变的I类TCR-pMHC复合体的结构,但尚未描述具有该突变的II类结构。为了阐明T细胞识别p53R175H热点突变的模式,将TCRVα和Vβ序列与含有突变残基的p53肽序列(TEVVR H CPHHERCSD;粗体突变组氨酸)一起输入TCRmodel2提交页面,并选择了HLA-DRA*01:01和HLA-DRB1*13:01基因。TCRmodel2的结果页面包括TCR-pMHC复合体的靠前模型(图S5A),该模型具有很高的置信度分数(0.88)。下载模型的PDB结构并对其结构进行可视化表明,突变的组氨酸残基直接位于TCR的界面上,与α和β链结合,提示了TCR具有新抗原特异性的可能机制(图S5B)。

73221693281293777

图S5 TCRmodel2的II类TCR-pMHC建模输出示例

总结

TCRmodel2提供了一种深度学习方法,以准确地建模TCR和TCR-pMHC复合体的结构。它的TCR-pMHC精度高于AlphaFold,运行速度更快,不需要专用计算资源,并提供了为TCR和TCR-pMHC建模设计的提交和输出界面。TCRmodel2与最近报道的另一种基于AlphaFold的TCR-pMHC建模方法不同,因为它除了作为Web服务器而不是命令行程序之外,不依赖于AlphaFold模型或TCR-pMHC复杂模板的微调。

TCRmodel2未来可能的发展将致力于提高置信度评估的准确性,并通过对建模管线的额外优化来提高总体成功率,包括生成接近本地(CAPRI High criteria)精度的模型。其他测试和开发可能侧重于将TCRmodel2应用于相关的感兴趣的复合体,例如TCR-mimic抗体,这种抗体与pMHC靶标结合,作为治疗药物正日益引起人们的兴趣。对这种复合体的建模可能需要对当前的TCRModel2框架进行有限的适应(如果有的话),包括可能扩展MSA数据库以优化抗体序列命中。鉴于最近利用深度学习结构预测方法设计新的蛋白质和相互作用,TCRmodel2或类似方法可能在未来的研究中用于设计和优化针对感兴趣的靶抗原的TCR。

Wu D., et al. T cell receptors employ diverse strategies to target a p53 cancer neoantigen. J. Biol. Chem. 2022; 298:101684.

Lineburg K.E., et al. CD8+ T cells specific for an immunodominant SARS-CoV-2 nucleocapsid epitope cross-react with selective seasonal coronaviruses. Immunity. 2021; 54:1055–1065.

Karnaukhov V.K., et al. Predicting TCR–peptide recognition based on residue-level pairwise statistical potential. 2022; bioRxiv doi:19 February 2022

Rui Yin and others, TCRmodel2: high-resolution modeling of T cell receptor recognition using deep learning, Nucleic Acids Research, Volume 51, Issue W1, 5 July 2023

Dauparas J., et al. Robust deep learning-based protein sequence design using ProteinMPNN. Science. 2022; 378:49–56.

Mirdita M., et al. ColabFold: making protein folding accessible to all. Nat. Methods. 2022; 19:679–682.

Pai J.A., Satpathy A.T. High-throughput and single-cell T cell receptor sequencing technologies. Nat. Methods. 2021; 18:881–892.