跳转至

GQCO的局限性

一、整体判断先说在前面

从目前这篇 GQCO 工作本身来看,我的判断是:

  • 这是一个有启发性的“概念验证型项目”,但离“工程上实用的通用量子优化器”还有很大距离。
  • 它确实存在若干**结构性局限**和**难以在短期内克服的瓶颈**,其中一部分构成了“研究目的与实现手段之间的内在张力”,如果不改变范式,规模一放大就会显得不太实用。

下面分几层说清楚:方法本身的硬约束、计算/规模瓶颈、量子优势与实用性上的逻辑矛盾。


二、方法本身的结构性局限

1. 门池(gate pool)与离散化带来的表达力天花板

你已经敏锐地捕捉到的那点,是这个项目最核心的技术局限之一。

  • GQCO 把所有“可调自由度”都搬到了**经典解码器**上;量子电路本身不再有连续参数,而是从一个**有限门池词表**中逐门采样:
  • 固定 ½ 比特门集合(H, RX/RY/RZ, CNOT, RZZ 等)
  • 旋转角只允许 6 个离散值:\(\{\pm\pi/3,\pm\pi/4,\pm\pi/5\}\)
  • 所有控制/目标 qubit 组合展开后,总计约 1901 个门(包括恒等和结束 token)

这带来的直接后果是:

  1. 理论上会丢掉一部分最优解空间
  2. 连续的旋转角 \(\theta\) 被粗暴量化为有限集合,即便在有限深度电路 ansatz 下,本可以通过“微调角度”逼近最优态,现在只能在一批“粗颗粒”的候选角里跳。
  3. 在文章分析的简单 3–10 qubit 随机伊辛模型上,这种粗离散可能“够用”;但在更复杂的哈密顿量(例如量子化学、强纠缠体系)下,很可能会**明显退化**。

  4. 门池一旦固定,后续扩展代价很高

  5. 门池 = 解码器词表。你要加新门,本质是扩展 vocabulary,embedding 和输出层结构都要变,等价于**换了任务空间**;
  6. 想用新的门集(例如适配另一类硬件、其它角度网格),基本都要重新训练/重度微调解码器。

这意味着:

该方法天然偏向“为一个门池、一个问题族专门做大训练”,而不是那种“随时能插拔新门、跨任务泛化的基础设施”。

2. 生成电路本质上多是“可经典模拟”的策略

论文内部分析也指出:
- 对 GQCO 生成的许多电路,如果去掉只改变全局相位的门,大体接近 Clifford 电路,主干行为更像是**智能的比特翻转模式**(例如三连 \(R_Y(\pi/3)\) 组合近似 X 门); - 对组合优化这类“经典基态”问题,它学到的多是“怎样翻 bit 更快到解”,而不是利用微妙的量子干涉/纠缠。

这带来的局限是:

  • 没有实质“量子性”的任务上,它很难超越强经典算法
  • 即使电路运行在量子芯片上,本质上依然是可以被经典高效模拟的策略(Clifford 近似),因此很难谈严格意义上的“量子优势”。

从研究视角:这更像在证明“用大模型可以学到一个不错的经典启发式求解器 + 一点点量子算力”,而不是证明“新型量子算法在复杂问题上优于经典”。


三、计算与规模上的硬瓶颈(短期内难克服)

1. 训练过程离不开指数复杂度的量子态模拟

训练的每一步都要做下面这件事:

  • 对同一个伊辛实例 \(x\),从解码器采样 \(M\) 个电路 \(\{U^{(1)},...,U^{(M)}\}\)
  • 对每一个 \(U^{(m)}\),都要计算
    \(\langle H(x)\rangle_{U^{(m)}} = \langle 0^{\otimes n}| U^{(m)\dagger} H(x) U^{(m)} |0^{\otimes n}\rangle\)

在论文实验中,这是通过**理想状态向量模拟器**完成的,时间复杂度 \(O(2^n)\),memory 也随 \(2^n\) 增长。

结果就是:

  • 实际实验只做到了 10 qubit
  • 即便 10 qubit,训练已经需要相当大的集群资源(2.56×10^8 参数 + 多电路采样 + 量子模拟)。

这就是经典意义上的**“量子模拟墙”**——

训练复杂度本身呈指数级增长,与“希望在更大规模上获得优势”的目标直接冲突。

这点短期内很难用工程技巧完全绕开
- 真机替代模拟?噪声 + 采样方差会让 DPO/CPO 信号极不稳定,很难做大规模训练;
- 张量网络/变分近似?那又会在模型可表达的电路种类上加一层强假设,未必通用。

2. 电路搜索空间的组合爆炸

即便先不看模拟成本,从**搜索空间**角度看也有硬瓶颈:

  • 序列长度上限 \(L = 2n\),门池大小 \(V \approx 1901\),则粗略空间规模是 \(V^L \sim 1901^{2n}\)
  • 训练时每个实例最多只采样 \(M\) 条电路(文中为了显存限制而调小),这在巨大空间里是极其稀疏的探索。

因此:

  • 随着 qubit 数增长,即使用同一个 V,有效覆盖“好电路”附近区域的难度会急剧增加
  • 为保性能,要么增加 \(M\)(更多采样),要么叠加其它更复杂的搜索/记忆机制,但这又进一步放大计算负担。

换句话说,一旦想要大门池 + 大规模 qubit,电路空间的组合爆炸会比“词表扩张”本身更快把你拖死。这与你直觉中“门一多计算就炸”的担忧,本质上一致:
- 真正炸的不是 softmax 做 2000 维而不是 1000 维;
- 真正炸的是“稀疏采样在巨大组合空间里越来越难碰到好解”。


四、目的 vs 手段:几处关键的“内在张力”

你问到“目的与原因间逻辑上的矛盾使得其不实用吗?”——我认为存在几处明显的张力:

1. “一次训练,快速推理” vs “训练本身极其昂贵”

  • 目标叙述
    用 GQCO 做到:模型训练好一次后,对新问题只需一次前向就能给出高质量电路,不再像 VQA 一样每个实例都要重新优化参数。

  • 现实情况

  • 训练阶段对每个问题规模(3–10 qubit)都要做海量电路采样 + 量子模拟 + DPO/CPO 更新;
  • 对每个问题族(比如不同类型的组合优化问题)还需要设计特定的图特征、再训练一遍。

这意味着:

  • 只有在“你会反复求解大量分布相似的小规模问题”的场景下,训练成本才能够被摊薄;
  • 对许多实际应用(只求解几十、几百个实例),直接用经典启发式(模拟退火、局部搜索)甚至单个 VQA/QAOA 重训练就够了,没必要先砸大量计算力训一个超大 GQCO。

→ 这是典型的**工程 ROI 矛盾**:

为了加速“推理阶段”,你在“训练阶段”付出了远大于原问题本身的成本。在很多真实场景下,这不经济。

2. “想展示量子计算的优势” vs “学到的策略可被经典模拟”

  • 项目叙事
    希望通过生成式量子电路在组合优化上展示量子计算的新路径。

  • 实际分析结果

  • 很多有效电路在去掉只改全局相位的门后接近 Clifford;
  • 所体现出来的优化逻辑非常接近“智能比特翻转”,而不是借助复杂量子干涉。

这会带来两个后果:

  1. 在当前实验规模和任务下,你并没有展示出“只有量子才做得到的东西”;
  2. 真要严肃比较性价比,经典大模型 + 经典启发式(比如 GNN + 局部搜索)完全可以做类似的事情,且整个 pipeline 都是经典可实施的。

→ 这构成了一个**“量子优势自我削弱”的矛盾**:

你用大量经典算力训练出一个主要执行“经典可模拟电路”的模型,然后再把电路放到量子机上跑,其实并没比“直接用经典方法”多出什么独特优势。

3. “通用性” vs “依赖问题特定设计”

  • 编码器侧对伊辛模型做了相当精细的**手工图特征工程**(sgn(h_i - h_j), sgn(h_i h_j J_ij)…),这些都隐含大量关于“伊辛型问题”的先验;
  • 换到别的优化问题形式(例如并不天然是伊辛形式)时,需要重新设计编码方式,甚至重新构建特征。

这意味着:

  • 当前 GQCO 并不是一个“问题无关的通用电路生成器”,而更像是一个“针对一类伊辛问题的专用求解器”;
  • 这与“foundation model for optimization”式的宽泛叙述之间,有一定落差。

五、小结:怎么评价“是否不实用”?

综合以上几点,可以给出一个相对平衡的判断:

  1. 从科研角度
  2. GQCO 非常有价值:

    • 它把“条件生成 + 偏好优化”这套大模型范式,第一次系统移植到量子电路生成;
    • 在 3–10 qubit 的随机伊辛问题上,确实给出了高成功率、较浅电路的数值证据;
    • 也提供了一整套工程经验(Graph Transformer 编码、CPO、qubit-based MoE 等)。
  3. 从“未来几十 qubit、真实工业问题”的工程角度

  4. 以目前的形式,它的**核心瓶颈(量子模拟 + 组合爆炸 + 离散门池表达力)确实难以直接扩展**;
  5. 在可见的规模范围内,很难在总体算力消耗和求解质量上**明显战胜强经典算法**;
  6. 因此,如果直接指望按原样把 GQCO 拿去做“实用的通用量子优化服务”,是**不现实的**。

  7. 目的与手段的逻辑关系

  8. 不是说“逻辑上自相矛盾到完全没意义”,而是:
    • 目前的技术路径,更适合作为“探索生成式量子算法可能性”的研究工具;
    • 而不是现在就能落地的“生产级优化引擎”。
  9. 真要让它在工程上实用,需要在三方面有本质改进:
    1. 摆脱大规模状态向量模拟(或找到高效近似);
    2. 在门池离散和表达力之间找到更好的折中(或引入连续可调子结构);
    3. 给出在某类问题上**超越经典方法**的实证或理论保证。

简短总结一句:

GQCO 是一个范式上很有想象力的尝试,但在目前的实现与实验规模下,它更多是“概念验证 + 方法学探索”,其结构性局限(门池离散、量子模拟墙、组合爆炸、策略偏经典)决定了:如果不在这些核心点上有突破,仅靠“堆更多算力”很难把它变成真正实用的通用量子优化器。