量子电路模拟策略选型指南：基于 qibojit 后端的端到端性能分析¶

文档版本：1.0

日期：2025-12-31

适用范围：基于 Qibo 框架及 qibojit (Numba/JIT) 后端的态矢量模拟任务

摘要：本文档旨在通过实测数据，明确不同规模量子电路模拟的最佳优化策略。结论推翻了“优化越多越好”的直觉假设，指出了在高性能 JIT 后端环境下，复杂优化（Sim-Fusion）的预处理成本在中小规模电路中无法被执行加速所摊薄。

1. 核心结论与决策矩阵¶

基于 10-20 Qubits、深度 3-18 的电路在 qibojit 后端的实测数据，我们建立以下决策模型：

电路规模	推荐策略	关键理由	预期行为
小规模 (\(\le\) 15 Qubits)	Original (无优化)	零开销胜出。JIT 编译后的执行速度极快，任何 Python 层面的优化预处理（Pre-processing）耗时都会导致端到端总时长增加。	直接执行，无额外延迟。
大规模 (\(\ge\) 20 Qubits)	Qibo Fusion	低开销高收益。随着状态空间指数级增长 (\(2^{20}\))，矩阵乘法成为瓶颈。Fusion 的轻量级门融合能有效减少矩阵运算次数，且预处理开销极低。	毫秒级融合，执行显著加速。
超大规模 / 深度极深	Sim-Fusion (慎用)	仅适用于复用场景。Sim-Fusion (TKET+Fusion) 预处理耗时过长 (1-6s)。仅当同一电路结构需要被重复执行极多次（Amortized Cost）时，其极致的门减少率才具有正向 ROI。	预处理慢，单次执行最快，总时间长。

✅ 决策伪代码¶

Python

def select_strategy(n_qubits, reuse_count=1):
    # 如果电路需要重复运行数千次，高昂的编译成本可以被摊薄
    if reuse_count > 1000:
        return "Sim-Fusion"

    # 单次或少量运行的端到端性能决策
    if n_qubits <= 15:
        return "Original (No Optimization)"
    elif n_qubits >= 20:
        return "Qibo Fusion"
    else:
        # 过渡区间，默认倾向于低开销策略
        return "Original"

2. 候选策略技术拆解¶

为了理解性能差异的本质，我们需要拆解三种策略的内部机制与时间成本结构。

2.1 Original (基准)¶

机制：将 Qibo 电路直接送入 qibojit 后端。
时间结构：\(T_{total} = T_{exec}\)
特点：利用 Numba 的 JIT (Just-In-Time) 技术将 Python 代码编译为机器码。对于小规模电路，\(T_{exec}\) 仅为毫秒级。

2.2 Qibo Fusion (轻量级优化)¶

机制：仅使用 Qibo 自带的 circuit.fuse()。
识别连续门和重叠量子比特。
计算融合后的酉矩阵。
时间结构：\(T_{total} = T_{fusion} + T_{exec}'\)
特点：\(T_{fusion}\) 极低（约 1-2 ms），且能将 \(T_{exec}'\) 降低 2-4 倍。
适用性：当 \(T_{exec}\) 增长到足以覆盖 1ms 的融合成本时（即大规模电路），收益开始显现。

2.3 Sim-Fusion (重量级混合优化)¶

机制：TKET 拓扑优化 + Qibo Fusion。
Phase 1 (TKET): 格式转换 (Qibo\(\leftrightarrow\)QASM\(\leftrightarrow\)TKET) + 6层 Pass 优化 (去冗余、窥孔优化等)。
Phase 2 (Fusion): 矩阵融合。
时间结构：\(T_{total} = T_{TKET} + T_{fusion} + T_{exec}''\)
特点：尽管 \(T_{exec}''\) 是三者中最小的（理论加速 5-13x），但 \(T_{TKET}\) 固定开销巨大（0.5s - 数秒）。
失败原因分析：在端到端测试中，由于 qibojit 后端执行太快（例如 50ms），花费 1000ms 去把 50ms 优化成 5ms 是得不偿失的。

3. 性能数据透视¶

基于实测数据的定量分析（数据来源：end_to_end_results）。

3.1 总体耗时对比 (平均值)¶

Original: ~3.60s (基准)
Qibo Fusion: ~3.28s (整体最优，胜在 20 qubits)
Sim-Fusion: ~8.98s (整体最差，慢于基准约 2.5 倍)

3.2 性能交叉点 (Crossover Point)¶

我们观察到了明显的性能交叉现象，这是选择策略的物理依据。

场景 A：10 Qubits (状态向量大小 \(2^{10} \times 128bit \approx 16KB\))¶

现象：Original 完胜。
原因：内存占用极小，CPU 缓存命中率高，矩阵乘法几乎瞬间完成。
Sim-Fusion 表现：TKET 预处理占据了 90% 以上的时间，完全是负优化。

场景 B：20 Qubits (状态向量大小 \(2^{20} \times 128bit \approx 16MB\))¶

现象：Qibo Fusion 反超 Original。
原因：状态向量超出 L2/L3 缓存，内存带宽成为瓶颈。减少矩阵乘法次数（Fusion 的作用）能显著减少内存 I/O，从而带来的加速超过了 Fusion 本身的微小开销。

4. 为什么 Sim-Fusion 在文档中被推荐，但在测试中表现不佳？¶

这是一个经典的**基准测试上下文差异（Contextual Discrepancy）**问题。

后端差异：
Sim-Fusion 文档：可能基于标准 numpy 后端进行测试。Numpy 是解释执行，矩阵运算慢，因此减少门数量带来的 \(T_{exec}\) 收益巨大，足以覆盖优化成本。
本次测试：基于 qibojit。JIT 编译极其高效，压缩了 \(T_{exec}\) 的绝对值，使得 \(T_{TKET}\) 的固定开销显得非常突兀。
指标差异：
Sim-Fusion 文档：侧重于“执行加速比”（Execution Speedup），即 \(\frac{T_{exec}}{T_{exec}''}\)，确实高达 10x。
本次测试：侧重于“端到端时间”（End-to-End Latency），即用户感知的总时长。
结论：在高性能模拟器（如 qibojit, cuQuantum）上，电路编译（Compilation）往往比电路执行（Execution）更慢。除非电路规模达到 30+ Qubits 或深度极大，否则复杂的电路重写（Sim-Fusion）通常是不经济的。

5. 附录：未来扩展建议¶

如果满足以下任一条件，请重新评估策略：

切换到 GPU 后端 (cuQuantum)：GPU 数据传输延迟高，Fusion 减少 Kernel 启动次数至关重要，Fusion 的权重会增加。
电路深度 > 1000：此时 \(T_{exec}\) 重新占据主导，Sim-Fusion 的深度压缩能力可能重新获得正向 ROI。
变分算法 (VQA) 训练：如果一个电路结构固定，参数变动执行 10,000 次。此时应使用 Sim-Fusion，因为 \(T_{TKET}\) 只需支付一次。