跳转至

量子-经典混合计算架构

——计算架构视图与数据流转机制详细说明

本文面向架构师、系统工程师与量子软件/硬件研发人员,系统性描述一套**工程可落地**的量子‑经典混合计算架构,包括计算架构视图、硬件与软件分层、互连方式,以及端到端的数据流转机制。内容综合了当前业界较先进的实践(如Quantum Machines + NVIDIA NVQLink / CUDA‑Q 等三层混合架构与QPU控制接口等)[1][2][3][4]。


一、总体目标与设计原则

1.1 架构目标

量子‑经典混合计算架构的核心目标是:

  1. 把QPU当成“又一种加速器”
    像GPU一样被调度中心统一管理,和CPU/GPU并列接入HPC数据中心。

  2. 按延迟分层
    将对“实时性要求极高”的功能(脉冲控制、中回路反馈、在线QEC)下沉到超低延迟层,将编译、编排、数据管理等上移到高延迟、可扩展层,从而在**实时性、可扩展性、工程复杂度**之间取得平衡。

  3. 统一编程模型
    开发者只需编写一份混合程序(如CUDA‑Q Kernel + Python/C++),即可在CPU/GPU/QPU异构资源上协同运行,而不必分别操纵底层硬件细节[3]。

1.2 关键设计原则

  • 三层延迟分级:纳秒 / 微秒 / 毫秒
  • 控制近物理、编排靠上层:离QPU越近,逻辑越简单、越硬件化;离用户越近,抽象越高、越软件化。
  • 有界时延、可预测的数据通路:控制与QEC链路必须具备确定的上界延迟(例如往返 < 4 μs)[1]。
  • 可横向扩展:每一层均可独立扩展容量(更多PPU卡、更多GPU节点、更多QPU机柜),通过标准化互连组合成更大系统[1][4]。

二、计算架构视图:三层混合体系

2.1 分层总览

从下到上,可抽象为三层经典资源叠加一层量子硬件:

  1. L0:量子硬件层(QPU Layer)
  2. L1:超低延迟控制层(Ultra‑Low Latency Control / QRT 网络)
  3. L2:低延迟加速层(Low Latency Acceleration / QEC 网络)
  4. L3:HPC编排与应用层(High‑Performance Orchestration & Applications)

2.1.1 分层一览表

层级 主要对象 延迟等级 典型职责 主要硬件/软件
L3 HPC编排层 应用、编译、调度、数据管理 毫秒级 混合应用编排、电路编译、资源调度 HPC集群、CUDA‑Q SDK、Scheduler
L2 低延迟加速层 QEC/校准/优化/ML 微秒级 Syndrome解码、在线校准、RL/优化 GPU/FPGA/ASIC、OP‑NIC/NVQLink
L1 超低延迟控制层 脉冲 & 中回路控制 数百纳秒级 脉冲生成、测量、前馈控制 OPX1000/PPU、Cryo‑CMOS、QUA
L0 量子硬件层 量子比特物理实现 物理时间尺度 演化、退相干、读出 超导/离子阱/光子QPU、低温设备

三、各层架构与组件说明

3.1 L0:量子硬件层(QPU Layer)

功能:承载量子态,执行量子门操作与退相干过程,输出测量结果。

典型实现

  • 超导量子比特阵列(多通道微波控制、低温同轴/波导连接)
  • 离子阱、光子量子处理器等
  • 读出链路:量子腔 → 低温放大器 → 室温ADC

接口特征

  • 面向上层L1,只暴露“模拟或数字化的控制/读出信号”,不直接暴露给高层软件。
  • 大规模系统下,I/O 通道数与低温布线成为**扩展瓶颈**[4]。

3.2 L1:超低延迟控制层(QRT 网络)

L1 直接挨着 QPU,是“在量子相干时间内完成控制回路”的关键层。

3.2.1 关键组件

  1. OPX1000 + PPU(Pulse Processing Unit)[1]
  2. 本质为 FPGA/专用处理器,专门为量子控制设计。
  3. 功能:

    • 任意波形实时生成(Arbitrary Waveform Generation)
    • 多通道同步触发与精确定时(Deterministic Timing)
    • 中回路测量(Mid‑Circuit Measurement)
    • 前馈控制(Feed‑Forward):测量马上影响接下来门序列。
  4. Cryo‑CMOS / 低温控制电子学[4]

  5. 更靠近芯片的低温控制芯片,减少信号线长度和延迟。
  6. 实现电压偏置、微波开关、放大器等。

  7. 编程语言与运行时(如 QUA)[1]

  8. 面向脉冲层的 DSL,可描述时序精确的实验逻辑。
  9. 支持事件驱动、循环、中途判断等控制流。

3.2.2 L1 的职责

  • 把来自上层的“抽象门/脉冲参数”转化为物理波形。
  • 接收读出数据,进行**简单逻辑判断**(如阈值比较、branch)。
  • 在**数百纳秒**之内完成从测量到控制决策的闭环。

3.3 L2:低延迟加速层(QEC 网络)

L2 驻留在经典服务器(GPU/FPGA/ASIC),面向“微秒级反馈”任务,如量子误差校正、在线校准、强化学习策略更新等。

3.3.1 关键组件

  1. GPU/CPU 服务器集群[1][2]
  2. GPU 用于执行大规模 QEC 解码和优化任务。
  3. CPU 负责任务管理、部分优化或辅助逻辑。

  4. FPGA/ASIC 解码器[4]

  5. 针对某种编码(如 Surface Code)实现硬件加速解码,降低能耗和延迟。

  6. 有界时延互连(OP‑NIC / NVQLink 等)[1][2]

  7. 将 L1 控制器与 L2 服务器相连。
  8. 性能指标(典型目标):
    • 往返延迟 < 4 μs(测量 → 传输 → 解码 → 返回)
    • 带宽 > 64 Gb/s,支持大流量读出与 syndrome 流。

3.3.2 L2 的职责

  • 持续接收来自 L1 的**读出/综合 syndromes 流**。
  • 运行:
  • QEC 解码(给出错误位置与修正操作)
  • 参数估计与在线校准(如频率漂移、幅度漂移)
  • 强化学习或其他 AI 策略(如自动寻找最优控制序列)
  • 将**修正策略或新的控制参数**回推给 L1,使其在下一 shot 或甚至同一 shot 的后半段应用。

3.4 L3:HPC 编排与应用层

L3 是开发者与运维人员直接面对的主要层级,它将整个系统作为一个**大型异构加速平台**来管理。

3.4.1 关键组件

  1. HPC 集群 / 数据中心基础设施[1][2]
  2. 多 CPU / 多 GPU 节点(如 NVIDIA DGX / AMD / x86 等)。
  3. 高速网络(InfiniBand/Ethernet)。

  4. 混合编程模型:CUDA‑Q 平台[3]

  5. 提供统一编程模型,将 CPU/GPU/QPU 暴露为可协同调度的资源。
  6. 支持 C++ 与 Python API:
    • 定义**量子 kernel**(内核),与经典代码紧密混合。
    • 提供 sampleobservevqe 等高层接口。
  7. 可以针对:

    • 本地 QPU 或模拟器
    • 远程量子云(IonQ、OQC、Quantinuum 等)
    • NVIDIA Quantum Cloud 等多后端部署。
  8. 作业调度与资源管理

  9. 类似 HPC 里的 Slurm / Kubernetes:
    • 把 QPU 看成一种“可预定加速资源”。
    • 支持多用户、多QPU/多GPU 并发作业。
  10. QPU 作业与 GPU 作业进入统一队列,按策略分配。

  11. 编译器与工具链[1][4]

  12. 电路编译(Qiskit/Scaffold/自研编译器)→ 门分解、布局、路由。
  13. 优化(减少深度、减少跨子系统通信)。
  14. 噪声建模与仿真。

3.4.2 L3 的职责

  • 面向用户提供**算法级接口**(如VQE、QAOA、QML框架)。
  • 执行:
  • 量子程序编译与分解(可拆为多子电路,分配到QPU或经典模拟器[5])。
  • 全系统作业编排(何时调 QPU、何时用 GPU 模拟)。
  • 实验证据与数据管理(版本、复现实验)。

四、互连与部署形态

4.1 系统级集成形态(延迟视角)

根据 QPU 与HPC 的物理/网络距离,可分为几种典型形态[4]:

形态 位置关系 互连 延迟特征 应用场景
Standalone 云端 远程云QPU WAN/Internet 非常高延迟 教学、离线算法测试
Loose Co‑located 同一机房/园区 Ethernet/InfiniBand 中等延迟 混合VQE/QAOA、原型实验
Tight Co‑located 同机柜/相邻机柜 PCIe/InfiniBand/CXL 低延迟 多QPU+HPC协作、QEC实验
On‑Node 共板/同节点 直连PCIe/CXL/Chiplet 近零延迟 面向未来的大规模容错QPU

NVQLink 架构主要对准 Tight Co‑located 与 On‑Node 场景,力图实现极低延迟、高吞吐的 QPU‑GPU 耦合[2]。

4.2 物理接口与链路

  • 经典链路
  • PCIe Gen⅘/6 + CXL:用作 QPU 控制器 / GPU / FPGA 等加速卡的通用总线。
  • InfiniBand/Ethernet:用于数据中心级 QPU‑HPC 互连。
  • OP‑NIC / NVQLink:提供有界延迟的专用高速网络[1][2]。

  • 低温链路

  • 同轴电缆、波导:传输控制/读出微波信号。
  • 频分/时分/空分复用:提高每条物理连线承载的qubit数。
  • Cryo‑CMOS + Chiplet:未来走向是将部分控制电子下沉至低温,并通过片上/片间互连集成。

五、端到端数据流转机制

下面分典型场景详细描述从应用到QPU、再返回结果的**数据与控制流**。

5.1 通用混合算法执行流程(例如 VQE/QAOA)

  1. 应用层(L3)
  2. 用户在 Python/C++ + CUDA‑Q 中定义:
    • 经典优化循环(如梯度下降、CMA‑ES、RL 等)。
    • 量子 Ansatz 内核(@cudaq.kernel)和目标哈密顿量。
  3. 应用调用 vqe() / sample() 等接口。

  4. 编译与调度(L3)

  5. 编译器将量子 kernel 转成中间表示(如 Quake/QIR)。
  6. 依据硬件拓扑和容量:
    • 决定哪些电路发往真实 QPU。
    • 对暂时无法上QPU的部分,用 GPU/CPU 模拟(如 Intel‑QS [5])。
  7. 调度系统为每个 kernel 分配:

    • QPU 目标(哪个机柜/哪个厂商 QPU)
    • GPU/CPU 资源(用于模拟或优化)
  8. 下发控制参数(L3 → L2 → L1)

  9. 对每次优化迭代,L3 计算出一组参数(如θ向量)。
  10. 参数通过 NVQLink/OP‑NIC 或 PCIe 发送给:

    • L2(做进一步计算或批量打包)
    • 或直接发送至 L1 控制器。
  11. 脉冲级控制与执行(L1 + L0)

  12. L1 根据参数生成门序列 → 脉冲波形。
  13. 通过 Cryo‑CMOS/低温链路驱动 QPU。
  14. QPU 完成态演化并在末端/中途执行测量。

  15. 读出与本地反馈(L1)

  16. 测量信号被数字化为读出数据。
  17. L1 可做简单的**前馈控制**(如条件旋转/重置),无需上送 L2/L3,延迟控制在数百纳秒[1]。

  18. 读出数据流向 L2(QEC/分析)

  19. 对需要解码或分析的实验(如QEC回路或需高统计的VQE采样),L1 将读出/ syndrome 流发往 L2。
  20. L2 在 GPU/FPGA 上执行:

    • 解码算法(推断错误模式)
    • 复杂统计分析
    • 在线参数调整。
  21. L2 生成校正/新参数 → 返回 L1 / L3

  22. 对于**shot 间前馈**:
    • L2 将修正指令返回给 L1,L1 在下一shot 应用更新脉冲或门序列。
  23. 对于**算法级优化**(如VQE迭代):

    • L2 将测量结果聚合为期望值,传回 L3。
    • L3 继续执行优化,形成新参数,循环第3步。
  24. 结果整合与输出(L3)

  25. L3 管理所有测量结果与实验元数据(参数、版本、硬件状态)。
  26. 应用可直接获得:
    • 基态能量、优化解
    • 损失曲线、收敛过程
  27. 结果可存储于数据湖或科研数据库。

5.2 QEC(量子误差校正)闭环数据流

针对误差校正,实时性要求更高,典型闭环如下:

  1. L1:执行一轮稳定子测量
  2. 控制器发送脉冲,量子比特与辅助比特交互。
  3. 测量辅助比特 → 获取 syndrome 信号。
  4. L1 → L2:Syndrome 流传输
  5. 经 OP‑NIC 等链路发送到 GPU/FPGA。
  6. L2:解码与修正计算
  7. 解码算法(如 MWPM / Union‑Find)在 GPU 上运行。
  8. 得出“应在何处施加X/Z/Y修正”。
  9. L2 → L1:修正指令回传
  10. 反馈到控制器,转换为控制门/脉冲。
  11. L1/L0:应用修正
  12. 在下一稳定子轮次前或甚至同一轮次内完成应用。

时间约束:从1到5的往返必须在**数微秒之内**完成,否则累积错误会超过纠错阈值[1][2]。


六、软件栈与开发视角

6.1 从开发者视角的“计算架构视图”

对开发者而言,底层复杂的 L0–L2 结构应被隐藏,呈现的逻辑视图如下:

  • 抽象资源
  • CPU:执行经典逻辑与优化。
  • GPU:执行大规模线性代数/QEC解码/ML。
  • QPU:执行量子 kernel。
  • 统一 API(如 CUDA‑Q)[3]
  • 通过 set_target() 指定目标后端(模拟器/真实QPU)。
  • 使用 @kernel 定义量子电路,在同一程序中调用经典函数。
  • 通过 sample/observe/vqe 等高层 API 完成常用混合模式。

开发者只需在**算法级**思考:
“每一步优化需调用多少次量子子例程”,无须手工管理:

  • 量子电路如何被拆分到多 QPU / 多 GPU;
  • QRT/QEC 网络如何保证延迟;
  • 控制器如何生成脉冲。

6.2 背后的映射过程(系统视角)

  • 编译器将量子 kernel 映射到物理 QPU 拓扑(门分解+路由)。
  • 调度器决定:
  • 哪些 kernel 在模拟器跑(如位数太多或硬件不可用)。
  • 哪些 kernel 需要紧耦合 QPU(如存在 mid‑circuit 测量)。
  • 控制栈(L1/L2)根据映射结果,生成对应的:
  • 脉冲序列(PPU程序)
  • 解码任务图(GPU任务)

七、典型架构蓝图总结(文字版)

综合前文,可以给出一份**工程实现导向的蓝图**:

  1. 数据中心/HPC层(L3)
  2. 标准 x86/GPU 集群,上跑:
    • CUDA‑Q 编程环境 + Python/C++
    • 量子编译器(QIR/Quake 支持)
    • 调度和监控(K8s/Slurm 插件)
  3. 同时接入量子云(远程 QPU)与本地 QPU 机柜。

  4. QEC/加速层(L2)

  5. 一组 GPU/FPGA 服务器,通过 OP‑NIC/NVLink 与 QPU 控制机柜互连。
  6. 承担:

    • QEC 解码服务
    • 在线标定/拟合/控制优化
    • 智能策略(RL/ML)
  7. 控制层(L1)

  8. 控制机柜内部署多块 OPX1000(或等效 PPU 系统)。
  9. 每块 PPU 管理若干量子通道,与 L0 通过低温布线相连。
  10. 支持多实验并发,统一受上层编程接口驱动(如 QUA)。

  11. QPU与低温层(L0)

  12. 多机架 QPU(如超导芯片 + 冷却系统)。
  13. 可通过芯片级、模块级互连形成多QPU簇,由 L2/L3 管理任务分配。

八、关键收益与挑战

8.1 收益

  • 性能:利用 GPU/FPGA 提前完成大量经典辅助计算,显著降低“量子宝贵时间”的浪费。
  • 可扩展性:三层结构允许独立扩展 QPU 数量、控制板卡数量、GPU 节点数量。
  • 可编程性:通过 CUDA‑Q 等统一模型,大幅简化混合程序开发[3]。
  • 工程可落地:现有 NVQLink + OPX1000 + DGX 等组合已能构造可运行原型[1][2]。

8.2 主要工程挑战

  • 低温集成与布线:大规模 QPU 下连接数量、热负载与信号完整性是硬限制[4]。
  • 互连标准化:不同厂商QPU/控制系统需要统一接口/协议(如 CXL 化、通用QHAL)。
  • 软件栈成熟度:编译器优化、运行时调度、多租户隔离需要更多工程打磨。
  • QEC 实用化:要在真实噪声水平下实现完全容错还需多年研究。

九、结语

本文给出了一套**从工程实现出发**的量子‑经典混合计算架构视图,将当下主流方案抽象为四层:L0 量子硬件、L1 超低延迟控制、L2 低延迟加速、L3 HPC 编排与应用,并围绕每一层的职责、典型组件和互连方式,详细拆解了从应用请求到 QPU 执行与结果回传的**端到端数据流转机制**。

在实际规划或设计自家系统时,可以直接据此:

  • 以 L0–L3 四层为主干,补齐各自厂商/技术栈;
  • 明确每条关键数据路径的**延迟预算与带宽需求**;
  • 选用合适的互连技术与编程平台(如 CUDA‑Q+NVQLink 或其他生态);
  • 渐进式从“Loose Co‑located”过渡到“Tight Co‑located / On‑Node”集成形态。

在未来 5–10 年,量子‑经典混合架构很可能将成为高性能计算中心的标准形态之一,而不是“附属实验设施”。现在构建一套清晰的计算架构视图与数据流模型,将直接决定后续系统能否平滑演进、具备持续扩展和可维护性。


References

[1] Hybrid Quantum‑Classical Supercomputers Architecture. https://www.quantum-machines.co/the-architecture-blueprint-for-hybrid-quantum-classical-supercomputers/
[2] NVIDIA Introduces NVQLink — Connecting Quantum and GPU Computing. https://nvidianews.nvidia.com/news/nvidia-nvqlink-quantum-gpu-computing
[3] NVIDIA CUDA‑Q documentation. https://nvidia.github.io/cuda-quantum/0.8.0/
[4] Hardware-level Interfaces for Hybrid Quantum-Classical ... (arXiv:2503.18868). https://arxiv.org/pdf/2503.18868
[5] Hybrid Quantum-Classical Computing Architectures. https://voices.uchicago.edu/suchara/files/2019/12/HybridQuantumPMES.pdf