跳转至

多Qubit分解问题

一、为什么多 qubit 的单位酉分解是一个“指数复杂度”问题?

文献在“Unitary synthesis”小节中明确指出:

“The complexity of unitary synthesis increases exponentially with the number of qubits, making exact synthesis computationally prohibitive for large quantum systems.”[1]

这背后的原因可以从**参数空间维度**与**门序列搜索空间**两方面理解,并且与被引经典文献 Shende et al. 的电路合成结果是一致的[2]。

1.1 参数空间:2ⁿ 维 Hilbert 空间带来的指数级自由度

  • 一个 n‑qubit 系统的 Hilbert 空间维度是 \(2^n\)
  • 任意 n‑qubit 酉算符 \(U\) 是一个 \(2^n \times 2^n\) 的单位矩阵,对应 \((2^{2n})\) 级别的复参数(在考虑酉约束与整体相位后,自由参数数目仍然是 \(\Theta(4^n)\) 量级)。
  • 换句话说,“任意”多比特酉操作本身就生活在一个**随 n 指数增长的连续参数流形**上。

当我们要把这个 \(U\) 分解到某个固定的通用门集(如单比特旋转 + CNOT)上时,要做的事情在本质上就是:

在一个**门序列空间**中,寻找一条路径,使得对应电路的整体酉 \(U_{\text{circuit}}\) 尽可能逼近目标酉 \(U_\text{target}\)

由于目标空间的维数是指数级的,不管是从“要表达的东西”有多复杂,还是从“要覆盖的搜索空间”有多大来看,这个问题都天然带有指数复杂度属性。

1.2 门序列空间:组合搜索空间随深度呈指数爆炸

设通用门集大小为 \(|\mathcal{G}|\),电路深度上限为 \(L\)。即使忽略连续参数(只看门类型和作用的比特),在最朴素的近似下:

  • 单层可选择的门组合数量 ~ 多项式地依赖于 qubit 数(决定你能在多少对比特上放多体门、在哪些比特上放单比特门)。
  • 当你允许深度为 \(L\) 时,粗略上可以类比为在一个大小约 \(|\mathcal{G}|^{\mathcal{O}(n)}\) 的动作集合中做 \(L\) 步序列选择,整体组合数目类似: $$ N_{\text{seq}}\sim \left(|\mathcal{G}|{\mathcal{O}(n)}\right)L = |\mathcal{G}|^{\mathcal{O}(nL)} $$ 这对 n 和 L 都是指数敏感的。

更关键的是,在经典电路综合理论(Shende 等[2])中已经表明,要实现“任意”n‑qubit 酉操作,最优门数本身就往往是指数级的,因此不存在一个在 n 的多项式时间内完成“精确任意酉分解”的通用算法。

文献在你给出的综述中对这点做了高度概括:[1]

“The primary challenge is decomposing the unitary matrix representing the operation into a sequence of elementary quantum gates… The complexity of unitary synthesis increases exponentially with the number of qubits, making exact synthesis computationally prohibitive for large quantum systems.”[1]

因此,“多 qubit 的单位酉分解是指数复杂度问题”的含义是:

  1. 从理论上,任意 n‑qubit 酉的自由度随 n 指数增长,
  2. 从实践上,把它精确写成通用门集序列,需要的门数和搜索空间也随 n 指数增长,
  3. 在大 n 极限下,“完全精确合成”在经典计算资源下几乎不可能,只能依赖**近似合成**、启发式搜索**或**学习型方法(包括 AI / RL)

二、强化学习如何在酉分解问题上定义“状态–动作–奖励”?

根据综述中对“Unitary synthesis”和后续“AI for circuit optimization”部分的描述[1],以及对 RL‑based 合成与优化工作的引用(如 AlphaTensor、Quarl、基于 RL 的电路综合框架等[3]),可以把“用强化学习做酉分解 / 电路合成”的 Markov 决策过程(MDP)结构概括为:

把酉分解视为一个“逐步搭电路”的序列决策问题
agent 从空电路开始,每一步选择一个门(以及作用 qubit / 参数),逐渐构建出实现所需酉算符的电路;训练目标是通过奖赏设计,让 agent 自动学会在巨大组合空间中找到“短而准”的电路。

下面用更具体、但仍与文献风格一致的方式给出典型的 “状态–动作–奖励” 定义。

2.1 状态(State)的典型定义

在大多数 RL‑for‑synthesis / RL‑for‑compilation 工作中,“状态”至少会包含如下信息的部分或全部(用不同编码方式):

  1. 当前电路结构信息
  2. 已经放置的门序列(时间–qubit 2D 平面上的门布局)。
  3. 可以用“门序列列表”、“时间步 × qubit 的门占用矩阵”、或图结构来表示。
  4. 综述中提到利用图神经网络(GNN)来表示电路结构,就是把电路视作图结构状态输入 RL/深度模型[1]。

  5. 当前“有效酉”相对于目标酉的偏差

  6. 例如以 \(U_\text{curr}\) 表示当前电路实现的整体酉,以 \(U_\text{target}\) 表示目标酉;状态中可以包含某种误差度量: $$ \Delta = |U_\text{curr} - U_\text{target}|, \quad\text{或保真度 }F(U_\text{curr}, U_\text{target}) $$
  7. 在实际实现中通常不会直接存整块矩阵,而是用抽样态矢量或者某些特征(近似保真度、损失值)作为状态的一部分。

  8. 硬件约束与资源使用情况

  9. 当前电路深度、已用两比特门数量(如 T 门、CNOT 数)、是否触发了连通性约束等。
  10. 不同硬件(超导、离子阱等)的 gate set、qubit 连接图不同,文献强调**“architecture‑aware”**的编译与综合[1],这些约束信息通常也进状态。

综合起来,你可以把状态抽象写成: $$ s_t = \big(\text{电路结构}_t, \text{误差/保真度特征}_t, \text{资源与硬件约束特征}_t\big) $$ 它捕获了“我现在已经搭成了怎样的电路、离目标还有多远、资源消耗到什么程度”。

2.2 动作(Action)的典型定义

综述在描述 RL 用于电路生成与优化时写道:

“RL can treat synthesis as a sequential decision-making problem, where an agent iteratively selects gates to construct a circuit that closely approximates the desired unitary operation.”[1]

对酉分解 / 合成问题,动作通常包括两类维度:

  1. 离散决策(门类型 + 作用比特)
  2. 选择一个门类型:如 \(\{R_X(\theta), R_Z(\theta), H, T, \text{CNOT}, \text{CZ}, ...\}\) 中的一种。
  3. 选择这个门作用到哪些 qubit 上:
    • 单比特门:选择目标 qubit 索引 i;
    • 两比特门:选择一对 (control, target) 或 (i, j) 且满足连接约束。
  4. 在一些工作中,这部分动作空间会通过模板(templates)或模式(patterns)进行约束,减小组合爆炸[1]。

  5. 连续决策(门参数,如旋转角度)

  6. 对参数化门(如 \(R_X(\theta), R_Y(\theta)\) 等)需要给出角度 \(\theta\)
  7. 文献中提到的“混合离散–连续”深度 RL 框架[3],就是将:
    • “选什么门、在哪些 qubit 上”作为离散动作;
    • “门参数”交给另一个连续优化器(如梯度下降)或连续 RL 头来处理。

在抽象层面,你可以写成: $$ a_t = \big(\text{门类型}, \text{作用 qubit 集合}, \text{必要的连续参数}\big) $$

某些针对**电路优化**而非“从零合成”的 RL 方法,动作还可以包括:

  • 删除当前电路中的某个门
  • 交换相邻门(若酉等价)
  • 用一小段结构替换另一小段结构(类似 pattern rewrite)

这类动作本质上也是对电路图的一种“局部编辑”。

2.3 奖励(Reward)的典型设计

在文献中,RL‑based 编译 / 合成面临的主要挑战之一就是**大动作空间和非均匀奖励**[1],所以奖励往往是多个目标的折衷。典型设计可以概括为:

  1. 终局保真度奖励(accuracy term)
  2. 在一个 episode 结束(例如达到最大深度 L 或误差足够小)时,计算当前电路实现酉 \(U_\text{circuit}\) 与目标酉 \(U_\text{target}\) 的距离: $$ r_{\text{acc}} = f\big(F(U_\text{circuit}, U_\text{target})\big) $$ 如直接用保真度 \(F\)\(-\text{loss}\) 作为奖励。
  3. RL 的总体目标之一就是**最大化该保真度**,即电路功能性要对。

  4. 资源惩罚项(cost term)

  5. 惩罚电路过长、两比特门过多、T 门过多等: $$ r_{\text{cost}} = -\alpha \cdot \text{#gates} - \beta \cdot \text{#T-gates} - \gamma \cdot \text{depth} $$
  6. AlphaTensor‑like 的工作尤其强调**T 门数量**这一昂贵资源,并用 RL 去优化这一指标[1]。

  7. 约束惩罚(constraint term)

  8. 若 agent 选出的动作违反了硬件连通性、超出门集能力、或引入非法结构,则给出强负奖励,甚至直接终止 episode;
  9. 这样可以引导策略自动“学会”只在允许的物理操作空间中搜索。

  10. 中间 shaping 奖励(训练稳定性)

  11. 由于终局奖励稀疏,很多工作会在中间给定“形状奖励”:
    • 比如每添加一门如果减小了酉误差就给一个微小正奖励,反之给负奖励;
    • 或者每步根据当前的损失减小量 \(\Delta \text{loss}\) 提供奖励信号,以加速学习。

总体上,典型的总奖励可以写成: $$ R = \lambda_1 r_{\text{acc}} + \lambda_2 r_{\text{cost}} + \lambda_3 r_{\text{constraint}} + \lambda_4 r_{\text{shaping}} $$ 通过权重 \(\lambda_i\) 的选择在“精度、资源、硬件可行性”之间做权衡。


三、把两部分合起来看:为什么用 RL 来对付“指数复杂度”的酉分解?

根据综述中的观点[1][3]:

  1. 多 qubit 酉分解本身就是指数复杂度问题:参数空间和组合空间都指数级,传统穷举或系统性搜索方法在 n 稍大时即失效。
  2. 而 RL 本质上是“在巨大组合空间中通过试错与学习找策略”
  3. 把电路看作状态,把“加哪一门”视为动作;
  4. 通过奖励函数把“逼近目标酉 + 节省资源 + 满足硬件约束”的要求编码进去;
  5. 让策略网络/值函数网络在训练中渐渐学会一种“启发式搜索策略”,能在指数大的搜索空间里**快速找到相对高质量的电路**。
  6. 与传统启发式搜索或基于规则的综合相比
  7. RL/深度 RL 更容易自动适配不同硬件(通过状态里放入架构信息、约束写入奖励),
  8. 能够在复杂目标(如同时优化 T 门数和电路深度)下给出非显然的优化策略[1]。

因此,从你给出的综述和其引用的相关工作来看,可以把结论凝练成:

  • 原因:多 qubit 酉分解的指数复杂度来自于酉操作空间和门序列空间随 qubit 数目的指数增长,使得“精确遍历”在大规模系统中行不通[1][2]。
  • RL 的角色:通过把“逐步构建电路”建模为一个 MDP,定义合适的状态(电路 + 误差 + 约束)、动作(选门 + 选 qubit + 选参数)和奖励(保真度 + 资源 + 约束),RL 以“学策略”的方式在指数大的搜索空间中进行**近似最优的酉分解 / 电路合成**,而不是做显式的全局穷举[1][3]。

References

[1] p.4 UNITARY SYNTHESIS & AI FOR CIRCUIT OPTIMIZATION. s41467-025-65836-3.pdf.
[2] p.13 REF.71 Shende V. V. et al., Synthesis of quantum logic circuits. s41467-025-65836-3.pdf.
[3] p.4, p.14 RL-based circuit synthesis & optimization refs.75, 79–83. s41467-025-65836-3.pdf.