建模生命语言:DNA→RNA→蛋白质→细胞功能
摘要通用生物人工智能GBAI是种变革性方法用于建模「生命语言」——即从DNA到细胞功能的信息流。本综述整合了生物人工智能领域的快速进展旨在解析和生成DNA、RNA、蛋白质及细胞系统。勾勒出迈向综合系统的发展路径这类系统可同时跨上述领域进行数据处理与预测并行执行多项关键生物学任务。将语言人工智能与结构人工智能协同融合、利用专用模型及改进用于自主发现的人工智能智能体蕴含着巨大机遇。在解决数据、生物复杂性、规模化及实验验证等方面的挑战后GBAI有望深化对疾病通路和生物标志物的理解推进自动化治疗设计与评估并整合到虚拟细胞中以有效模拟生物活性。etopolscripps.edupranav_rajpurkarhms.harvard.edu#通用生物人工智能 #GBAI #生命语言 #多模态整合 #生物建模 #虚拟细胞 #治疗设计 #人工智能智能体GBAI图1GBAI愿景编码表征可利用来自基因表达和细胞代谢不同抽象层面的多模态信息在分子生物学中心法则的各个环节进行预测和分子设计。左栏输入涵盖但不限于DNA、RNA、蛋白质和细胞领域。中栏生物人工智能算法可学习建模的领域特异性过程范围。右栏仅通过对中栏所示过程的整合多模态理解才能实现的复杂预测和设计任务。TF 转录因子2D 二维。结构与设计表1代表性多任务生物人工智能模型的优势与局限概述数字生物学的新前沿图2生物人工智能在细胞加工不同维度的应用生物人工智能在3个领域为数字生物学开辟了新前沿——协调专用模型的智能体人工智能工作流程红色、跨生物领域学习并加速科学发现的多模态编码器蓝色以及通过联合潜在空间建模分子活性的虚拟细胞框架黄色。实现生物人工智能潜力面临的挑战图3当前生物人工智能算法面临的挑战概述这些挑战包括提升人工智能模型的能力以编码更长的输入序列并创建准确的联合编码空间扩展多模态数据的获取途径以及最终进行稳健的体内验证。BP 碱基对2D 二维。框1 与生物人工智能相关的技术和概念概述反向传播Backpropagation训练深度学习模型的核心算法利用微积分链式法则计算损失函数相对于模型参数的梯度。此处损失函数通常表示模型输出与其预期输出之间的某种计算差异。无监督学习Unsupervised learning在未标记数据上训练模型目标是发现输入分布中的潜在结构这在生物学某些注释稀缺但有大量原始数据可用的领域特别有用。有监督学习Supervised learning在输入-输出对上训练模型目标是学习从特征到标签的映射。标记数据的存在使模型能够最小化直接量化预测误差的损失函数这种方法非常适合生物领域的分类和回归任务。有监督学习通常在无监督学习之后使用以适应特定任务的基础模型。卷积神经网络Convolutional neural networks通过一系列卷积滤波器学习特征的空间层次结构。常用于生物领域的图像模式识别任务如显微镜和组织学分析。转换器Transformers最初为自然语言处理设计的基于序列的模型。处理「标记」序列的向量化元素并依赖称为「自注意力」的机制来建模输入中的长程依赖。在生物人工智能背景下适用于基于序列的数据如DNA、RNA和氨基酸。也已成功以视觉转换器的形式应用于图像将图像表示为原始图像的较小块序列。掩码语言模型Masked language models语言模型的无监督学习训练方法其中序列的部分被隐藏必须根据上下文进行预测。这种技术允许模型在没有显式标记的数据上训练使其能够隐式学习基础数据分布中的模式。图神经网络Graph neural networks直接在图结构数据上运行的深度学习模型图结构数据由「节点」组成节点之间通过称为「边」的关系连接。这些多连接图在生物人工智能的结构建模中特别有用。扩散模型Diffusion models生成模型通过逐步向数据添加噪声直至其与随机噪声无法区分然后训练神经网络逐步逆转此过程来学习。扩散模型可适用于生物人工智能中的生成任务如生物分子设计。详细总结思维导图mindmapGBAI的技术体系与代表性模型GBAI的核心技术支柱包括语言建模、结构预测与设计、图像分析3大方向同时需整合专用模型形成互补各方向代表性模型的核心优势与局限参考Nat Biotechnol. 2026 Mar 20. doi: 10.1038/s41587-026-03064-w.Generalist biological artificial intelligence in modeling the language of life260320GBAI.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。