Strat-Reasoner：用强化学习提升LLM在多智能体博弈中的策略推理

0｜基本信息（Metadata）

标题（Title，中英文）：Strat-Reasoner: Reinforcing Strategic Reasoning of LLMs in Multi-Agent Games / 《Strat-Reasoner：强化LLM在多智能体博弈中的策略推理》
作者（Authors）：Yidong He, Yutao Lai 等，华南理工大学软件工程学院（Mengchen Zhao 通讯）；Jiarui Gan，牛津大学计算机系
期刊 / 会议（Venue）：arXiv 预印本，cs.AI，2026年5月7日发布
发表时间（Year）：2026

1｜核心结论（Core Takeaway）

LLM 在多智能体博弈中表现糟糕的根本原因在于：它们只会做单智能体推理（single-agent reasoning），不会设身处地思考对手的意图和策略。Strat-Reconer 构建了一套完整的强化学习框架，让 4B 参数的 Qwen3 在对战中超越了 GPT-5-mini 和 Gemini-2.5-flash，在井字棋中对 MCTS（1000模拟）胜率达到 94%。

核心理念：不是用规则教 LLM 下棋，而是让 LLM 学会”思考对手怎么想我”——把博弈论中的递归推理（recursive reasoning）框架化、可训练化。

2｜研究问题与背景（Problem & Context）

核心问题：LLM 在需要战略推理的多智能体环境中（扑克、外交谈判、棋类）表现极差，即使是最新的强推理模型（如 DeepSeek-R1 类）也不行。
为什么难：传统单智能体 RL 扩展到多智能体有三个挑战：
1. 对手不确定性 — LLM 比传统 agent 更不可预测，行为涉及复杂推理过程
2. 稀疏 reward — 游戏结束时才能知道胜负，中间推理步骤缺乏有效训练信号
3. 长时序信用分配 — 多轮回合下每步推理的贡献难以评估
现有方法局限：SPIRAL、MARSHAL 等使用 self-play + GRPO 的方式，但缺乏对对手推理过程的显式建模，且只使用结果级 reward（response-level），无法指导推理步骤。

3｜方法主线（Approach）

Strat-Reasoner 包含三个协同模块：

Ⅰ. 递归推理模块（Recursive Reasoning） 受博弈论中认知层级理论（Cognitive Hierarchy Theory）启发，设计了一个”过去-现在-未来”认知循环推理模板，每个 agent 的推理包含四个结构化字段：

OpponentIntent — 我相信对手上一轮的意图是什么
OpponentPrediction — 我相信对手预测我会做什么
MyIntent — 我当前的意图
MyPrediction — 我预测对手下一步会做什么

Ⅱ. 集中式 CoT 比较模块（Centralized CoT Comparison） 利用 CTDE（集中训练-分散执行）范式，在训练时把双方的推理过程当作全局信息。用 LLM-as-a-judge 把 ego agent 的预测与对手的实际想法进行语义相似度比较，得到三个对齐分数：

过去对齐（Past Alignment）：OpponentIntent vs 对手真实的 MyIntent
递归对齐（Recursive Alignment）：OpponentPrediction vs 对手真实的 MyPrediction
未来对齐（Future Alignment）：MyPrediction vs 对手真实行动

取三个分数的均值作为 turn-level CoT Score。

Ⅲ. 混合优势估计（Hybrid Advantage Estimation） 将低方差、细粒度的 CoT Score 与无偏的长期回报结合：A_hybrid = A_return + ω · A_cot。其中 CoT 优势通过微展开（Micro-rollout，M=2）在同一状态生成多条推理路径，用 GRPO 归一化得到稳定基线。

训练在 Qwen3-4B 上用 LoRA（rank=16），双 A800 GPU，ROLL + vLLM 框架，批量 128。

4｜创新贡献（Novel Contribution）

方法创新（Methodological），创新幅度高。

核心新意在于：把对手的推理链显式建模为训练信号，而不是像传统 self-play 方法只依赖最终胜负。具体来说：

提出了结构化递归推理模板，把博弈论的认知层级理论变成 LLM 可执行的推理格式
设计了集中式 CoT 比较机制，用 LLM-as-judge 在语义层面做细粒度的意图对齐评估——这是对传统”格式化奖励”（format reward）的根本改进
混合优势估计巧妙地把中间推理质量信号与长期回报结合，解决了长时序稀疏 reward 问题

这不是渐进式改进——整个框架的设计范式是新的。

5｜关键点（Key Points）

递归推理的 “Past-Present-Future” 循环：不是让 LLM 自由推理，而是强制按 OpponentIntent → OpponentPrediction → MyIntent → MyPrediction 的结构输出，形成天然的 mapping 关系用于后续评估。
LLM-as-judge 做语义对齐评分：不使用外部打分模型或规则系统，直接用基础模型自身（Qwen3-4B）作为 judge，评估两个预测的语义相似度，省去了额外模型部署的开销。
Micro-rollout（M=2）：每个决策步生成 2 条推理路径计算 CoT 优势，但不扩展游戏分支——计算开销极小（批量异步推理）。
LoRA 微调 + vLLM 多 LoRA 热切换：同时训练两个 agent，每个 agent 有各自的 LoRA adapter，vLLM 支持运行时切换，使双 agent 并行训练成为可能。
跨游戏泛化：在 Tic-Tac-Toe 上训练的 agent 可以直接推广到 Connect Four（更复杂），Kuhn Poker → Leduc Holdem，MiniHanabi → SimpleHanabi，均显著优于同量级模型。

6｜关键数学 / 统计方法（Quantitative Tools）

GRPO（Group Relative Policy Optimization） — 无需 critic 网络的组相对策略优化。文中将其扩展为多轮版，对所有 trajectory 的 terminal reward 做组内归一化。
LoRA（Low-Rank Adaptation） — rank=16 的低秩适配，训练参数极小但效果显著。
Semantic Similarity Scoring — LLM-as-judge 做 [0,1] 语义相似度评估，不是传统的 cosine similarity 或 BLEU，而是用 LLM 本身理解上下文做比较。

7｜结果与证据强度（Results & Evidence Strength）

环境	评价方式	Strat-Reasoner-4B	最佳开源基线	GPT-5-mini
Tic-Tac-Toe vs MCTS 100	胜率	90.77/81.84	76.53/76.42（Qwen3-32B）	88.84/89.73
Tic-Tac-Toe vs MCTS 1000	胜率	94.04/90.47	75.05/73.94（MARSHAL-4B）	77.72/86.56
Kuhn Poker vs NE	胜率	77.60/73.12	76.10/81.22（MARSHAL-4B）	77.72/86.56
MiniHanabi	合作得分	80.19	77.14（MARSHAL-4B）	85.99

泛化测试（OOD）： | 环境 | Strat-Reasoner-4B | Qwen3-32B | Gemini-2.5-flash | |——|——————-|———–|—————–| | ConnectFour vs MCTS | 70.39/70.26 | 56.62/63.63 | 78.74/82.70 | | LeducHoldem vs NE | 75.93/69.26 | 58.11/58.12 | 64.90/66.14 | | SimpleHanabi（合作） | 68.63 | 65.35 | 73.10 |

证据强度判断：强。理由：

所有结果基于 500+ 局游戏统计，多轮独立测试
对照基线完整：同系列不同规模（4B/8B/32B）、专用基线（SPIRAL/MARSHAL）、闭源最强模型（GPT-5-mini/Gemini-2.5-flash）
有消融实验（去 CoT 信号 / 去归一化），清晰证明每个模块的贡献
有完整的 OOD 泛化测试，排除过拟合

8｜局限与注意点（Limitations）

仅限双智能体交替博弈。论文明确承认 N-agent 设置”作为未来工作”，当前框架依赖交替回合结构，不适合同步博弈或多智能体自由对话场景。
计算成本不低。在双 A800 上，最复杂的 MiniHanabi 场景需要 100 小时 wall-clock time。rollout 阶段占 50-60% 时间，推理引擎的批量处理效率是瓶颈。
LLM-as-judge 的评分可靠性。打分用的是基础模型自身（Qwen3-4B）的语义理解能力，在高复杂度场景（如 Leduc Holdem 的 bluff 识别）下的准确率未做独立验证。
仅测试了 Qwen3-4B。框架理论上可迁移到其他模型，但在更大/更强 backbone 上的效果未经验证。递归推理的 prompt 对不同模型的适应性可能不同。

9｜可迁移价值（Transferable Value）

“结构化推理模板 + 语义对齐” 的训练范式可以推广到任何需要预测他人行为的场景——对话策略优化、谈判训练、自动驾驶中的人车博弈。关键是：把预测结果做成可比较的结构化字段，然后用 LLM-as-judge 做对齐评分。
Micro-rollout 的设计思路——同一状态生成多条推理路径，只在思维层面做比较（不扩展到游戏树）——是一种高效的”思维探索”策略，计算开销可控，适合作为通用 RL 训练中的辅助信号。
混合优势估计的 bias-variance trade-off 思路值得学习：低方差但可能有偏的中间信号 + 无偏但高方差的长期回报，通过权重 ω 控制融合比例。这种思路可迁移到任何长时序任务。

10｜一句话总结（One-line Summary）

让 4B 参数的 LLM 学会”思考对手在思考什么”，在井字棋、扑克、碰碰糊中击败 GPT-5 和 Gemini，核心创新是把对手的推理链作为训练信号来指导每一步思考的质量。