202510-recent-paper-overview

Posted Sep 17, 2025

By Ivan Deng , Gemini

views 24 min read

1. PepThink-R1: LLM for Interpretable Cyclic Peptide Optimization…

论文链接: arXiv:2508.14765v1

领域与问题

该研究专注于治疗性环肽（Cyclic Peptide）的优化设计领域。当前面临的核心问题包括：

巨大的序列空间：多肽的可能序列组合是天文数字，难以通过实验完全探索。
可解释性差：现有的AI生成模型通常是“黑箱”，它们能生成优秀的序列，但无法解释为什么某个特定的氨基酸突变能改善性质，这使得研究人员难以信任和调整模型。
数据稀缺：高质量的实验数据有限，给模型训练和优化带来困难。

解决方案与贡献

为了解决上述问题，该研究提出了一个名为 PepThink-R1 的生成框架。

核心技术：该框架创新性地将 大语言模型（LLM） 与 思维链（Chain-of-Thought, CoT）监督微调（SFT） 以及 强化学习（RL） 相结合。
可解释的设计过程 ：其最大的贡献是引入了CoT机制。在生成序列的过程中，模型会显式地“思考”并输出其推理步骤，说明在哪个位置将哪个单体（monomer）替换成什么，以及这样做的目的是为了改善哪种药理学特性（如亲脂性、稳定性等）。这使得设计过程变得透明和可解释。
多目标优化 ：通过一个定制的奖励函数（Reward Function）来指导强化学习过程，该函数平衡了化学有效性和多种药理属性（亲脂性LogD、稳定性SIF、暴露量MRT）的提升，使模型能够自主探索并优化多肽序列。
数据构建流程 ：提出了一套将原始多肽数据转化为带有“推理过程”的数据对的方法，为CoT微调提供了必要的训练数据。

效果与评估

PepThink-R1在多个方面表现出色：

性能优越：在优化成功率和可解释性方面，PepThink-R1显著优于通用的LLM（如GPT-5）和领域内的基线模型。
强大的属性控制能力：经过CoT SFT和RL的训练后，模型展现出近乎完美的属性控制能力。例如，94% 的低亲脂性（low-LogD）多肽被成功优化为高亲脂性多肽，证明了其强大的优化能力。
真实的推理过程：与GPT-4o等通用模型生成的宏观、泛化的优化策略不同，PepThink-R1生成的推理过程是具体、忠实于其最终输出的分子结构的，真正做到了“言行一致”。

2. PepINVENT: Generative peptide design beyond the natural amino acids

论文链接: Chemical Science, 2025, 16, 8682-8696

领域与问题

此研究同样聚焦于 多肽药物设计 领域，但它着重解决一个关键限制：传统方法和许多生成模型的设计空间通常局限于 20种天然氨基酸 。为了提升多肽的稳定性、亲和力、细胞渗透性等特性，引入 非天然氨基酸（NNAAs） 至关重要，但这极大地扩展了化学空间，需要能够从头设计新氨基酸的工具。

解决方案与贡献

该研究提出了 PepINVENT，一个基于AI的生成式多肽设计工具。

核心思想：作为小分子设计平台REINVENT的扩展，PepINVENT旨在探索一个不受限于预定义氨基酸库的、更广阔的理论化学空间。
原子级生成能力：其核心贡献在于，它不只是选择氨基酸，而是能够在原子层面从头设计新的氨基酸。这是通过一种名为CHUCKLES的化学语言表示法实现的，该表示法能将肽链及其单体以原子精度的SMILES字符串形式进行编码。
通用性和灵活性：模型在一个包含大量NNAAs的半合成数据集上进行预训练，使其不局限于特定性质或拓扑结构，可以作为一个通用的多肽设计工具。
目标导向设计：与强化学习（RL）结合，PepINVENT可以根据用户定义的多参数优化（MPO）目标，有针对性地生成具有期望性质（如高渗透性、高溶解度）的多肽。

效果与评估

PepINVENT展示了强大的设计和优化能力：

高效探索化学空间：模型能生成有效、新颖且多样化的多肽设计，平均一次查询就能产生比传统20种氨基酸空间大10-70倍的氨基酸选项。
生成全新氨基酸：在测试中，模型生成了大量（约92,000种）训练集中从未见过的新颖NNAAs，证明了其强大的从头设计能力。
多参数优化成功：在一个案例研究中，PepINVENT成功地对一个已知的HIV抑制剂肽（RBP）进行了改造，同时优化了其溶解度和细胞渗透性，平衡了这两个通常相互冲突的属性。

3. BindFlow: a free, user-friendly pipeline for absolute binding free energy calculations

论文链接: bioRxiv, 2025.09.25.678545

领域与问题

该研究属于 计算药物发现 领域，具体关注 蛋白质-配体结合亲和力预测 。虽然存在如 自由能微扰（FEP） 和 MM(PB/GB)SA 等精确的物理计算方法，但它们存在以下问题：

使用门槛高：这些计算的设置、执行和分析过程繁琐、依赖专家经验且耗时。
成本高昂：许多商业软件包的授权费用很高。
自动化和可重复性差：缺乏免费、开源、易于使用且完全自动化的流程，阻碍了其在高通量筛选中的应用和研究的可重复性。

解决方案与贡献

为了解决这些问题，研究者开发了 BindFlow。

核心定位：一个免费、开源、用户友好的Python软件包，旨在完全自动化绝对结合自由能（ABFE）的计算流程。
集成与自动化：BindFlow集成了两种主流计算方法（FEP和MM(PB/GB)SA），使用GROMACS作为分子动力学引擎。它通过强大的工作流管理工具Snakemake来调度和管理从系统构建、平衡、模拟到分析的所有任务，支持从个人工作站到HPC集群的部署。
易用性与可定制性：提供了简洁的API和详尽的文档，用户只需几行代码即可启动一个复杂的计算任务。同时，高级用户也可以对流程的每一步进行深度定制。
主要贡献：降低了高精度结合能计算的技术和经济门槛，提高了计算效率和可重复性，使之能更好地服务于现代药物发现。

效果与评估

BindFlow的性能和实用性得到了充分验证：

性能可靠：在包含139个配体/靶标对的大规模验证中，BindFlow的FEP计算结果与领域内的“黄金标准”（如商业软件FEP+）相比具有竞争力，特别是在配体排序方面（Kendall τ相关系数表现良好）。
重要发现：研究发现，计算成本远低于FEP的MM(PB/GB)SA方法，在某些体系中，其配体排序的准确性接近于FEP。这凸显了MM(PB/GB)SA作为大规模虚拟筛选初步工具的巨大价值。
实用性证明：该工具已被成功应用于结合贝叶斯主动学习进行大规模虚拟筛选，以及解释抗病毒药物的X射线晶体学数据，证明其已达到生产应用的成熟度。

论文链接: arXiv:2406.00735v1

领域与问题

此研究关注 靶向特定蛋白质的肽类抑制剂设计。现有生成模型存在几个关键问题：

忽略侧链：大多数模型只关注蛋白质的骨架（backbone），而忽略了在蛋白质-多肽相互作用中起决定性作用的 侧链（side-chain） 动态和相互作用。
序列与结构不一致：许多方法分两步走，先生成结构，再为其设计序列，这可能导致两者之间不匹配。
缺乏全原子视角：要精确设计结合相互作用，需要一个能够同时考虑骨架、侧链和序列的 全原子（full-atom） 模型。

解决方案与贡献

该研究提出了 PepFlow，一个用于全原子多肽设计的多模态深度生成模型。

核心技术：基于 条件流匹配（Conditional Flow Matching, CFM） 框架，这是一种高效的生成模型。
多模态联合建模：这是该工作的核心贡献。PepFlow将多肽的各个组成部分视为不同“模态”，并在各自对应的数学流形（manifold）上对其进行建模和生成：
- 骨架框架：在SE(3)流形上建模（描述刚性旋转和平移）。
- 侧链角度：在高维环形流形（Torus）上建模（描述扭转角）。
- 残基类型：在概率单纯形（Simplex）上建模（描述20种氨基酸的离散选择）。
一体化设计：通过在这些流形上并行学习和采样，PepFlow能够同时生成多肽的序列和包含所有原子的三维结构，确保了两者的高度一致性。
任务灵活性：通过“部分采样”技术，该模型可以灵活地应用于多种任务，如固定骨架的序列设计（side-chain packing）和侧链构象预测（fix-backbone sequence design）。

效果与评估

PepFlow在多个任务上均展现了卓越的性能：

序列-结构协同设计：与RFDiffusion等顶尖模型相比，PepFlow生成的肽链在几何结构上更接近天然肽链（RMSD更低，2.07Å），并且能更准确地靶向结合位点（BSR更高，86.89%）。
固定骨架序列设计：其序列恢复准确率（AAR）优于ProteinMPNN等知名模型。
侧链预测：在侧链构象预测任务中，其准确率超越了包括DiffPack在内的所有基线模型。
结论：实验结果有力地证明了全原子多模态建模在精确设计蛋白质-多肽相互作用中的重要性和优越性。

5. ProteinDJ: a high-performance and modular protein design pipeline

论文链接: bioRxiv, 2025.09.24.678028

领域与问题

此研究关注从头（de novo）蛋白质设计流程的工程实现。尽管如RFdiffusion等强大的AI设计工具已经出现，但在实际应用中存在严重的工程瓶颈：

效率和可扩展性低：现有的商业或单机版实现方案难以扩展，无法满足大规模设计（通常需要数千个候选设计）所需的高吞吐量和计算资源。
部署和使用复杂：在高性能计算（HPC）集群上部署这些工具链技术门槛高，需要管理复杂的软件依赖（如不同版本的CUDA和Python环境），对非专业用户不友好。
工作流程僵化：蛋白质设计领域技术迭代迅速，需要一个模块化、易于扩展的流程来集成和评估新工具。

解决方案与贡献

为了解决这些工程挑战，研究者开发了 ProteinDJ。

核心定位：一个高性能、模块化、可并行的蛋白质设计流水线（pipeline），专为HPC环境设计。
技术栈：使用Nextflow作为工作流管理系统，实现了任务的智能调度和高效并行（同时利用CPU和GPU资源）；使用Apptainer进行容器化，解决了复杂的软件依赖和部署问题。
模块化设计：流水线被清晰地划分为四个阶段（折叠设计、序列设计、结构预测、分析报告），并集成了当前最主流的工具，且支持替换：
- 折叠设计：RFdiffusion。
- 序列设计：ProteinMPNN 或 FAMPNN。
- 结构预测：AlphaFold2 或 Boltz-2。
实用功能增强：
- Bindsweeper：一个用于自动化参数扫描的子程序，可以系统地探索最佳设计参数组合。
- 早期过滤：在流程早期引入结构过滤，剔除不合理的构象，节省后续的计算资源。
- 简化的设计模式：将RFdiffusion复杂参数整理为‘de novo’、‘partial diffusion’等多种易于理解的模式，降低了使用门槛。

效果与评估

ProteinDJ在效率和实用性上取得了显著成果：

极高的并行效率：在8个GPU上实现了 86.5% 的并行效率，将一个需要近17小时的大规模任务缩短至 2.5小时 。
实用性验证：通过Bindsweeper对不同的序列设计软件组合进行基准测试，发现ProteinMPNN结合FastRelax能稳定提升设计成功率，为用户选择最佳策略提供了数据支持。
推广价值：ProteinDJ通过其高效、易用和模块化的设计，极大地降低了大规模蛋白质设计的门槛，使研究人员能更专注于科学问题本身，而非繁琐的工程部署。

6. Designing Cyclic Peptides via Harmonic SDE with Atom-Bond Modeling (CPSDE)

论文链接: arXiv:2505.21452v1

领域与问题

该研究专注于通用性环肽（Cyclic Peptide）的从头设计。与前述研究相比，它特别强调了现有方法在设计多样化环肽方面的局限性：

环化类型单一：现有方法通常只能设计特定一种环化方式的肽链（如头尾相连），无法处理侧链-侧链、头-侧链等更复杂的环化类型。
几何约束处理困难：环化对分子的几何构象（键长、键角）施加了严格的化学约束，而基于残基（residue）的表示方法很难精确地处理这些原子级的约束。
数据依赖：依赖稀缺的环肽3D结构数据进行训练，泛化能力有限。

解决方案与贡献

为应对这些挑战，研究者提出了 CPSDE 框架。

核心创新：采用了全原子和化学键（atom-bond）的图表示。这是其与众不同的地方，它不再将蛋白质视为残基的序列，而是看作原子和连接它们的化学键构成的图。这种底层表示使得模型能够：
- 处理任意环化类型：任何环化方式都可以通过定义原子间的化学键来精确描述。
- 利用更广泛的数据：模型可以从数量庞大的线性肽、小分子数据中学习原子间的相互作用规律，减轻了对稀有环肽数据的依赖。
双模型交替采样：CPSDE由两个关键模型组成：
- ATOMSDE：一个基于 谐波随机微分方程（harmonic SDE） 的生成式结构预测模型，它在生成原子坐标时会同时考虑原子间的化学键约束。
- RESROUTER：一个残基类型预测器。
- 路由采样（Routed Sampling）：一种创新的采样算法，它在生成过程中 交替调用ATOMSDE（更新结构）和RESROUTER（更新序列），从而实现序列和结构的同时优化。
首创性：据作者称，这是 第一个能够直接生成所有类型环肽 的生成式算法。

效果与评估

CPSDE在环肽设计方面展示了优异的性能和潜力：

性能领先：在稳定性和亲和力（通过Rosetta能量评估）方面，CPSDE设计的环肽优于所有基线中的线性肽设计方法，并且展现出很高的结构多样性。
通用性验证：模型成功生成了包括头尾、头侧、侧尾、侧侧在内的多种环化类型的多肽。
实际应用案例：在针对SMYD2和SET8这两个癌症相关靶点的案例研究中，CPSDE设计的环肽（分别为头尾环化和侧侧环化）经过分子动力学（MD）模拟验证，显示出比天然线性肽和PepFlow设计的线性肽更稳定的构象（RMSD更小）和更强的结合亲和力（结合自由能更低），证明了其在真实药物发现场景中的巨大潜力。

Paper

abstract

This post is licensed under CC BY 4.0 by the author.

1. PepThink-R1: LLM for Interpretable Cyclic Peptide Optimization…

领域与问题

解决方案与贡献

效果与评估

2. PepINVENT: Generative peptide design beyond the natural amino acids

领域与问题

解决方案与贡献

效果与评估

3. BindFlow: a free, user-friendly pipeline for absolute binding free energy calculations

领域与问题

解决方案与贡献

效果与评估

4. PepFlow: Full-Atom Peptide Design based on Multi-modal Flow Matching

领域与问题

解决方案与贡献

效果与评估

5. ProteinDJ: a high-performance and modular protein design pipeline

领域与问题

解决方案与贡献

效果与评估

6. Designing Cyclic Peptides via Harmonic SDE with Atom-Bond Modeling (CPSDE)

领域与问题

解决方案与贡献

效果与评估

Trending Tags