1. 量子电路切割技术概述量子计算正逐步从实验室走向实际应用但当前量子处理器QPU的物理比特数量仍然有限。以IBM的Eagle处理器为例其127个物理量子比特尚不足以支持大规模量子算法的完整执行。电路切割技术Circuit Cutting通过将大型量子电路分解为多个可在小型QPU上运行的子电路为解决这一瓶颈提供了可行方案。电路切割的核心思想类似于经典计算中的分治策略。当遇到一个无法在当前QPU上完整运行的量子电路时我们可以通过切断某些量子比特之间的连接称为切割线将原电路分解为多个较小的子电路。这些子电路可以分别在多个QPU上独立执行最后通过经典后处理将结果重新组合近似还原原始电路的输出。1.1 电路切割的两种基本模式根据子电路间通信方式的不同电路切割主要分为两种实现模式局部操作LO, Local Operations模式是最基础的切割方式。在这种模式下上游子电路在测量被切割的量子比特后将测量结果通过经典信道传递给下游子电路下游子电路根据接收到的测量结果将相应量子比特初始化为特定状态后继续执行所有子电路完全独立运行仅在最后通过经典后处理组合结果带经典通信的局部操作LOCC, Local Operations with Classical Communication模式则更为高效上游子电路执行到切割点时进行贝尔基测量测量结果通过低延迟经典链路实时传输至下游QPU下游QPU根据接收到的信息施加相应的泡利修正门整个过程模拟了量子隐形传态Quantum Teleportation的效果1.2 采样开销的数学本质电路切割不可避免地会引入额外的采样开销Sampling Overhead其数学本质源于准概率分解Quasi-Probability Decomposition。对于被切割的两比特门G我们可以将其表示为G(ρ) Σ wα (Lα⊗Rα)(ρ)其中Lα和Rα是可局部实现的量子信道wα是实数系数。Λ Σ|wα|称为该分解的ℓ1范数它直接决定了采样开销的规模。在LO模式下每个被切割的两比特门会引入约9倍的采样开销Λ²≈9而每条被切割的量子线则会带来16倍的采样开销。这种开销随切割数量呈指数增长严重限制了LO模式的实际应用。LOCC模式通过利用实时经典通信将每条切割线的采样开销从16倍降至4倍。这种改进源于贝尔态测量仅产生四种可能结果对应四个经典分支而不像LO模式需要考虑所有可能的泡利测量组合。2. 模块化量子系统的调度挑战随着量子计算硬件向模块化架构发展如何高效调度跨多个QPU的量子作业成为关键问题。IBM已演示通过经典链路连接两个127比特Eagle处理器的模块化系统能够执行142比特的量子电路。这种架构为电路切割技术提供了理想的运行环境但也带来了新的调度复杂性。2.1 量子作业的并行执行约束在模块化量子系统中调度器需要同时考虑以下约束条件量子资源约束每个QPU的可用量子比特数有限时序依赖关系LOCC模式下下游子电路必须等待上游测量结果测量同步要求并行执行的子电路需要协调测量时间窗口保真度权衡不同QPU的噪声特性影响整体结果质量以IBM的模块化系统为例当执行一个需要切割的量子电路时上游子电路在QPU A上执行至切割点并进行测量测量结果通过经典互连延迟约10μs传至QPU BQPU B根据接收到的信息施加泡利修正门后继续执行下游子电路2.2 LO与LOCC的调度权衡LO模式的调度优势在于子电路完全独立可以灵活安排在任何可用QPU上并行执行。例如一个被切割为8个子电路的大型量子作业其子电路可以分散到多个QPU同时运行最大化硬件利用率。然而LO模式的高采样开销使其在实际中面临严重限制。对于一个需要切割k条量子线的大型电路采样次数需增加16^k倍。即使对于中等规模的k3也需要4096倍的采样这在时间成本上难以承受。LOCC模式的调度挑战主要来自时序依赖。下游子电路必须等待上游测量完成形成类似流水线的执行结构。这要求调度器精确估算每个子电路的执行时间确保经典通信延迟不超过量子相干时间合理预留测量和反馈控制的时间窗口尽管存在这些挑战LOCC模式将采样开销降至4^k使其成为大规模量子计算的更可行选择。例如同样的k3情况采样次数仅需增加64倍相比LO模式有显著改善。3. QuMod调度器的设计与实现QuMod调度器是专为模块化量子系统设计的并行作业调度系统其核心创新在于将电路切割决策与资源调度紧密结合。该系统支持动态切换LO和LOCC模式根据当前系统状态选择最优执行策略。3.1 调度算法架构QuMod采用分层调度架构主要包含以下组件1. 作业分组引擎将待执行作业按电路深度和宽度分类识别可并行执行的作业组合对于需要切割的大型作业生成上游/下游子电路组2. 自适应切割决策模块评估当前QPU的负载状况计算不同切割策略的预期采样开销选择使总体完成时间最小的切割方案3. 资源分配优化器考虑各QPU的保真度差异平衡计算负载与通信开销处理作业间的优先级关系3.2 关键调度策略动态切割阈值策略是QuMod的核心创新之一。系统维护一个实时更新的切割收益指标切割收益 (原始电路执行时间) - (子电路执行时间 通信开销 采样开销)只有当该指标为正时才会触发电路切割。这避免了不必要的切割操作特别是在系统负载较轻时。混合模式执行允许同一作业的不同部分采用LO或LOCC模式。例如对于深度较浅的子电路采用LO模式利用其并行优势对于深度较深的子电路采用LOCC模式降低采样开销根据各QPU的当前负载动态调整模式选择3.3 性能优化技术子电路大小均衡化QuMod通过调整切割位置确保生成的子电路在大小和深度上尽可能均衡。这有利于后续的并行调度避免出现长尾子电路拖慢整体进度。通信-计算重叠系统利用经典通信期间QPU的空闲时间安排其他独立子电路的执行。这需要精确的时间预测和资源预留机制。保真度感知调度考虑到不同QPU的噪声特性差异QuMod将高保真度QPU优先分配给对噪声敏感的关键子电路如量子纠错码的校验电路部分。4. 实际应用与性能评估通过SimPy模拟器对QuMod进行的评估显示在多种工作负载下LOCC模式相比LO模式展现出显著优势。测试环境配置了11个基于IBM量子处理器校准数据的虚拟QPU处理包含50个量子作业的队列。4.1 小型量子电路场景对于MQT-QUEKO基准测试中的小型电路平均需要20个量子比特LO和LOCC模式表现出相似的完成时间。这是因为小型电路通常不需要切割两种模式都主要通过传统并行调度来提升吞吐量。然而当系统中混有少量需要切割的大型电路时LOCC模式的优势开始显现。在一个测试案例中包含32个小型电路和1个142比特大型电路的混合工作负载下LOCC模式的总完成时间为10.58个时间单位LO模式为10.34个时间单位但LOCC的成功概率对数(LPST)为-3.67明显优于LO的-6.16这表明虽然两种模式的时间性能相近但LOCC能提供更可靠的计算结果。4.2 大型量子电路场景在强制切割场景下所有电路127比特LOCC模式的优势更为明显。测试使用了16个大型电路的工作负载LOCC总完成时间3.78个时间单位LO总完成时间5.60个时间单位加速比达到1.48倍这种性能提升主要来自两方面LOCC的采样开销更低4^k vs 16^k减少了需要执行的电路实例数LOCC允许更灵活的子电路分组策略提高了QPU利用率值得注意的是随着切割数量的增加LO模式的子电路数量呈指数增长很快超出可用QPU资源。而LOCC通过实时通信减少了子电路间的独立性要求能更有效地利用模块化系统的并行能力。4.3 异构工作负载场景最接近实际应用的测试是随机生成的异构工作负载包含158个大小不一的量子电路分布如图1所示。在这种复杂场景下LOCC平均响应时间26.60个时间单位LO平均响应时间32.92个时间单位LOCC的队列长度和等待时间也显著更低深入分析调度日志发现LOCC模式能动态识别出更多适合切割的电路平均每个大型电路产生4.7个子电路而LO模式仅为3.2个。这种更细粒度的任务分解带来了更好的负载均衡。5. 电路切割技术的实践考量在实际量子计算系统中应用电路切割技术时需要特别注意以下几个工程实践问题5.1 经典通信基础设施要求LOCC模式对经典互连的性能有严格要求延迟预算典型量子处理器的相干时间在毫秒量级因此经典通信延迟应控制在微秒级别带宽需求每个切割点每shot需要传输2个经典比特贝尔测量结果同步精度上下游QPU的时钟需保持亚微秒级同步现代量子计算系统如IBM的模块化架构使用专用互连技术延迟可低至10μs完全满足LOCC需求。但对于地理分布较远的QPU则需要考虑更复杂的同步方案。5.2 错误传播与缓解电路切割会引入额外的错误源贝尔态制备不完美测量误差经典通信误码反馈控制延迟抖动QuMod采用多种技术来缓解这些错误贝尔态验证在资源态制备后立即进行快速验证测量测量误差校正对关键测量结果进行多次重复自适应重试当检测到通信异常时自动重新执行受影响shot5.3 实际应用场景建议根据测试结果我们推荐在不同场景下采用以下策略小型电路集群优先使用LO模式充分利用其并行优势大型电路与小型电路混合采用LOCC模式对大型电路进行适度切割超大规模电路如200比特必须使用LOCC模式并考虑多层次切割对于量子机器学习等迭代算法可以在早期迭代使用较低保真度的LO模式快速探索在后期精细调优阶段切换至高保真度LOCC模式。这种混合策略在VQAVariational Quantum Algorithm调度中表现出色。