传统高性能计算长期依赖物理方程的数值模型进行规模化并行但在面对日益复杂的模拟需求时单纯扩展硬件规模已难以突破效率与成本的瓶颈。随着AI for Science的兴起深度学习与数据驱动的方法被引入到传统高性能计算流程中计算负载由领域数值算法转向AI算子为中心计算图驱动并与传统高性能计算进行动态交互的混合计算模式针对传统硬件架构的调优方法越来越难获得有效收益。针对这一范式变革鲲鹏CPU及其配套软件栈通过软硬结合的协同设计凭借高效的并行架构与深度优化的软件生态有效应对混合负载挑战重新定义了高性能计算与AI融合背景下的科研计算开发体验。鲲鹏CPU采用众核架构支持向量与矩阵计算扩展配备高带宽片上内存具备同时支撑高精度科学计算与高吞吐AI负载的硬件基础。然而AI4S的高度动态性要求软件栈将硬件特性转化为开发者低感知的性能收益。鲲鹏通过HPCKit打造了优化体系将性能调优从高度专业化、定制化的工作重塑为可复制的系统工程。该体系以毕昇编译器为底座实现硬件特性向应用层的高效映射辅以鲲鹏数学库KML在保持主流接口兼容以支持低感知迁移的同时大幅强化了基础计算性能。针对深层调优鲲鹏统一并行加速库KUPL与MPI通信库紧密协同支撑起复杂的调度与并行优化。最终通过一键集成部署解决了组件适配的痛点显著降低了开发门槛提升了整体开发效率。蛋白质结构预测模型 AlphaFold3AF3作为处理生物大分子复合物的核心应用是验证鲲鹏架构处理极端复杂AI负载能力的典型场景。基于鲲鹏平台的优化实践AF3 实现了全流程端到端推理性能的显著突破。其优化路径深度贯彻了鲲鹏软硬协同的演进逻辑第一步性能瓶颈分析基于热点分析工具对 AF3 热点算子进行瓶颈分析确定 GridSelfAttention、TriangleMultiplication 等热点算子抓取典型算例矩阵形状进行优化方案分析。第二步算子融合针对热点复合算子进行算子融合大幅降低计算过程中的冗余内存访问。具体来说研发团队使用 FlashAttention 等“计算换空间”的方法对中间过程中不必要的张量进行切块保证单次计算过程中热点数据都保留在缓存中。第三步指令集加速充分调用ARM向量/矩阵加速单元对AF3中的高频AI算子进行重构。利用鲲鹏CPU的矩阵处理能力大幅提升了在处理大规模多聚体数据时的并行效率使核心张量运算实现跨越式提效。此外面对AF3更复杂的并行需求研发团队基于KUPL重构了通信算子。通过共享内存机制、多线程向量化数据拷贝技术对通信算子进行加速实现了平台能力对顶尖科研应用性能的二次释放。鲲鹏的优化逻辑不仅局限于生命科学。在材料与工业仿真领域上海交通大学利用鲲鹏CPU的向量化能力完成了百万原子级的高熵合金相变模拟突破了传统模拟的规模瓶颈。北京大学的DeepFlame燃烧仿真基于鲲鹏硬件平台实现了高密度网格的模拟。当前高性能计算AI4S正从单一应用的模拟计算向着AI智能体驱动端到端的科研流程打通演进算力需求愈发多元化。鲲鹏通过HPCKit加速套件将复杂的并行、通信与异构调度封装为通用能力降低了科研用户的创新门槛。通过构建这种深度耦合、高效易用的技术体系鲲鹏软硬协同不仅为全球科研机构提供了高性能且自主创新的算力支撑更在行业转型中发挥了关键作用促使高性能计算的开发范式从传统的“硬件堆叠”彻底转向“系统级协同与智能驱动”的新阶段。基于鲲鹏硬件深度调优的高性能计算与AI4S生态应用即将陆续开源。我们诚挚邀请广大开发者共同参与探索高性能计算的更多可能。