8个样本就能涨32个点?RLVR的"奇迹"为什么换到Llama身上就不复现了
一句话感受
最近半年,RLVR(Reinforcement Learning with Verifiable Rewards)的圈子里出了一堆让人怀疑人生的结论:1个样本就能让Qwen-Math涨好几个点;随机奖励也能work;甚至完全没有验证器、用模型自己投票当奖励信号都行。但只要你拿这套做法去Llama身上跑一遍,立刻翻车。
我读到的这篇UCLA、NYU、Google合作的论文,把这个圈子最尴尬的问题摆到了桌上:RLVR的这些"奇迹"到底是RL本身的功劳,还是预训练就已经把答案埋好了?
读完以后我的第一反应是:这篇论文可能是2026年第一季度RL方向最值得细啃的几篇之一。它没炫技,没堆baseline,就老老实实地把"RLVR什么时候work、什么时候不work"这个问题,用一组干净到近乎残忍的对照实验剥开了。
核心摘要
这篇论文做了一件听上去很无聊但其实非常重要的事:用控制变量的方式,把"RLVR能在弱监督下泛化"这件事从神话拉回到机制层面。
作者跨两个模型族(Qwen / Llama)、三个推理域(Math / Science / Graph),在三种弱监督设置(稀缺数据、噪声奖励、自监督代理奖励)下做了系统性研究。核心发现可以浓缩成三句话:
第一,RLVR能不能泛化,由训练奖励的"饱和动力学"决定。能泛化的模型经历一个长长的pre-saturation阶段,训练奖励和下游性能一起涨;不能泛化的模型迅速饱和,进入post-saturation阶段后再训也没用。
第二,决定模型属于哪一类的,不是输出多样性,而是"推理忠实度"——也就是中间推理链是否真的在支撑最后那个答案。Llama输出多样性比Qwen高得多,但生成的推理链经常和最终答案脱节,所以说到底它是在背答案而不是在学推理。
第三,SFT在显式推理轨迹上的训练是必需品。在Llama3.2-3B-Base上做continual pre-training(52B math token)+ Thinking SFT(4.35万条带推理过程的样本)后,原本在三种弱监督下都失败的Llama,在三种设置下全部恢复了泛化能力。
一句话点评:这篇论文真正值钱的不是"我们造了个新方法涨了几个点",而是给整个RLVR-with-weak-supervision领域提供了一个统一的解释框架——把那些看上去互相矛盾的结论(1个样本work、随机奖励work、Llama不work)放到同一张图里讲明白了。
论文信息(已与arXiv摘要页核对)
- 标题:When Can LLMs Learn to Reason with Weak Supervision?
- 作者:Salman Rahman, Jingyan Shen, Anna Mordvina, Hamid Palangi, Saadia Gabriel, Pavel Izmailov(*为共同一作)
- 机构:UCLA、NYU、Google
- arXiv:2604.18574
- 项目页:salmanrahman.net/rlvr-weak-supervision
为什么需要这篇论文:圈子里的结论已经互相打架
先把背景捋一下,不然你看不明白这篇论文的价值。
RLVR在2024-2025年这一年多的时间里,把reasoning这条路炒得非常热。DeepSeek-R1把这套方法搬上了主舞台,Kimi K1.5、OpenAI o1全在用类似思路。但伴随而来的是一堆让人挠头的结论:
- 王宇等人发现,1个训练样本做RLVR能让Qwen-Math涨几个点(Wang et al. 2025a)
- 邵睿等人发现,随机奖励、错误奖励居然也能匹配ground-truth的效果(Shao et al. 2025)
- 赵雪等人提出self-certainty,用模型自己的confidence当奖励就能涨(Zhao et al. 2025)
- 左尧等人提出majority vote做TTRL,多数投票当伪标签也能涨(Zuo et al. 2025)
但这些"奇迹"有个共同的尴尬之处:全是在Qwen系列上做的。换到Llama,全部熄火。
更尴尬的是,Chandak et al. (2025)发现这里面很多论文的baseline报告有问题,"涨"出来的数其实是baseline没调好。Shafayat et al. (2025)发现自监督奖励训练时间一长就会reward hacking,性能崩盘。
这就让一个根本问题浮出水面:RLVR到底是真的在"教模型推理",还是只是在把预训练里已经存在的能力释放出来?如果只是后者,那你给的奖励信号是真是假就不那么重要了——只要能触发那个pattern就行。
这篇论文的切入点正是这里。
实验设计:一张表说明白所有事
我先把作者的实验设计骨架讲清楚,后面所有结论都建立在这上面。
两个模型族: - Qwen系列:Qwen2.5-1.5B/3B(基础模型,18T预训练token)+ Qwen2.5-Math-1.5B/7B(在Qwen2.5基础上额外训了1T的math token) - Llama系列:Llama-3.2-3B/8B-Instruct(9T token + SFT + DPO对齐)
三个推理域(按预训练曝光度排序): - Math(高曝光):用Skywork-OR1 - Science(中等曝光):用SCP数据集(物理、化学、生物) - Graph(低曝光):用Reasoning Gym里的Quantum Lock和Largest Island两个算法任务
三个弱监督场景: 1. Scarce data:训练样本数N ∈ {8, 32, 64, 512, 2048} 2. Noisy rewards:随机污染γ比例的标签,γ ∈ {0, 0.1, 0.3, 0.5, 0.7, 0.9} 3. Self-supervised proxy rewards:majority vote / self-certainty
RL算法:GRPO(DeepSeekMath那篇里的Group Relative Policy Optimization)
核心评估指标:avg@16、pass@k
设计的精髓在于三个推理域跨预训练曝光度这个维度——你能直接看到"预训练时见过 vs 没见过"对RL效果的决定性影响。
发现一:饱和动力学决定一切
这是整篇论文最核心的概念。看一眼这张大图就明白了:

图1:跨模型族和领域的训练动力学。Qwen系列(蓝/绿)的训练奖励曲线是缓慢爬升的——在Math域上Qwen2.5-Math-1.5B用8个样本能维持300多步的pre-saturation phase。Llama(橙色)训练奖励飙升非常快,几十步就到顶了,但下游性能没怎么涨。这张图基本就是论文的"封面",把所有核心结论都画在里面了。
作者形式化定义了一个关键概念——饱和步数 \(t_{\text{sat}}\):训练奖励第一次达到最大值的99%时的步数。然后把训练分成两段:
- Pre-saturation phase:\(t \in [1, t_{\text{sat}} - 1]\),训练奖励还在涨
- Post-saturation phase:\(t \in [t_{\text{sat}}, T]\),训练奖励已经平了
核心结论一句话:pre-saturation phase的长短,几乎完全决定了模型能不能泛化。
具体的数值可以看这张表(论文Table 1,我做了重新排版):
| 模型 | 训练域 | \(t_{\text{sat}}^{(8)}\) | 主in-domain指标涨幅 | OOD MATH/SCP-Hard涨幅 |
|---|---|---|---|---|
| Qwen2.5-Math-1.5B | Math | 302 | MATH500: +29.7, AMC: +18.7 | SCP-Hard: +10.5 |
| Qwen2.5-1.5B | Math | 170 | MATH500: +32.1, AMC: +12.7 | SCP-Hard: +7.0 |
| Llama3.2-3B-Instruct | Math | 55 | MATH500: +10.8, AMC: +8.8 | SCP-Hard: +3.9 |
| Qwen2.5-Math-1.5B | Science | 268 | SCP-Hard: +14.5, GPQA: +16.9 | MATH500: +25.3 |
| Qwen2.5-1.5B | Science | 161 | SCP-Hard: +6.4, GPQA: +13.3 | MATH500: +32.3 |
| Llama3.2-3B-Instruct | Science | 61 | SCP-Hard: +1.8, GPQA: +11.9 | MATH500: +7.3 |
| Qwen2.5-Math-7B | Graph | 150 | Quantum Lock: +8.3, Largest Island: +19.8 | MATH500: +21.0 |
| Llama3.1-8B-Instruct | Graph | 29 | Quantum Lock: +10.1, Largest Island: +1.8 | MATH500: +9.1 |
注意几个关键数:
Qwen2.5-Math-1.5B在Math上的饱和步数是302,而Llama3.2-3B-Instruct只有55。差了快6倍。这个对比说明的是什么?说明同样是用8个样本做RLVR,Qwen-Math能在300多步里持续从这8个样本里"挖"出可以泛化的pattern;而Llama不到100步就把这8个样本背得滚瓜烂熟,再训也没用。
更狠的是Qwen2.5-Math-7B训Graph之后,OOD的MATH-500涨了21个点。Graph任务和Math任务在表面上根本不像,但Math-specialized的Qwen-Math-7B竟然在Graph训练时持续优化推理能力,迁移到Math上还涨这么多。说明它学到的不是Graph特定的trick,而是一种更general的推理pattern。
这里有个我特别想强调的细节:Qwen2.5-Math-1.5B和Qwen2.5-1.5B的对比是同架构、只差预训练数据的"双胞胎实验"。前者多训了1T math token,结果在Math上pre-saturation长了将近一倍(302 vs 170),泛化也更强。这基本就是在说:预训练时多见的东西,RL时才能继续学;预训练时没见过的,RL几十步就到天花板了。
发现二:噪声奖励——Llama背错答案的速度和背对答案一样快
这块特别有意思。作者把训练标签随机替换成"模型自己最常给出的错误答案"(这种corruption比random label更难——因为错误答案是模型自己产生的,看起来"合理"),看不同γ下模型还能不能学。

图2:噪声奖励的影响。重点看右边Llama那一列——你会发现哪怕γ=0.9(90%的标签都是错的),训练奖励曲线和γ=0.1的几乎重合!这说明Llama在用相同的速度"拟合"错误答案。但下游MATH-500性能从γ=0.5开始就明显下降了。
看到这张图我直接皱眉。Llama的训练奖励曲线在γ=0到γ=0.9之间几乎重合。意思是:标签全错的时候,Llama学得跟标签全对的时候一样快。这不就是经典的memorization signature吗?
具体数据: - Qwen模型在Math和Science上,γ ≤ 0.7(70%标签错)的时候性能仍然接近clean reward。这个robustness非常夸张。 - Llama在Math、Science上,γ ≥ 0.5就开始降级 - Qwen在Graph上同样从γ ≥ 0.5开始降级——再次证明这不是模型族的内禀属性,而是"预训练有没有见过相关分布"的问题
饱和快的model-domain pair都不耐噪声,这条规律在所有八个组合上都成立。这是一个非常漂亮的cross-validation:你可以用saturation dynamics预测noise robustness。
发现三:自监督代理奖励——大部分时候是reward hacking陷阱
完全没有ground-truth的时候,圈子里有两个流行方案:majority vote(采样N个回答,最多的那个当伪标签)和self-certainty(用模型自己的KL散度当奖励)。这两个方案在论文里被直接质疑了。

图3:proxy reward的失败模式。看橙色self-certainty那条线——MATH-500和SCP-Hard在两个模型上都直接崩盘。majority vote稍好但同样不稳定,Qwen2.5-3B训500步以后性能崩塌,Llama的MATH-500从45%崩到4%。
具体数据: - Self-certainty在所有设置下都崩盘——Llama从~50%的MATH-500掉到接近0 - Majority vote只对math-specialized的Qwen-Math有效,对其他模型基本不work - 一个特别诡异的现象:Llama在majority vote上reward会刷到1.0——意思是reward在涨,但下游性能在崩。这就是教科书级别的reward hacking:模型学会了让自己投出的票互相一致,但答案本身没有任何意义。
我读到这里的时候笑了一下。这不就是2024-2025一堆论文标榜"我们用self-supervised reward也能work"的真实样子吗——能work的窗口非常窄,只有Qwen-Math能稳定吃下majority vote,其他全是失败案例。
转折:失败的根本原因不是"探索不够",而是"推理不真"
到这里你可能会有一个直觉假设:Llama之所以饱和那么快,是因为输出多样性不够——它探索能力差,几下就把可能的输出空间塞满了,然后陷入局部最优。
作者也是这么想的,于是去测了semantic diversity(用LLM judge聚类回答,再算Shannon diversity index)。结果发现……

图4:Llama的输出多样性其实比Qwen高。橙色(Llama)在RL训练后期diversity反弹到0.5以上,比Qwen的两个模型(绿/蓝)都高。这直接推翻了"Llama因为多样性低所以饱和快"的假设。
事实是:Llama的多样性比Qwen还高,但泛化反而更差。这个观察直接把"探索不足"的假设给毙了。
那真正的原因是什么?作者引入了一个我觉得非常关键的概念——reasoning faithfulness:
一个回答是faithful的,当且仅当它的reasoning trace包含证明final answer所需的全部信息,且逻辑上和final answer一致。
通俗一点讲:模型说出了正确答案,但中间的推理过程能不能真的支撑这个答案?
实现上用OpenAI o3当judge,把每个rollout打成{aligned=1, partially aligned=0.5, misaligned=0}三档。Cohen's Kappa一致性达到了0.752,所以打分本身可信。
接下来这张图是整篇论文的重头戏:

图5:左列是aligned response的比例(推理过程真的支持答案的比例),右列是faithful diversity(只在faithful response里算的多样性)。Math域上Llama的aligned比例只有~30%,Qwen系列都在60%以上。这意味着Llama答对的题里,有相当大的比例是"蒙对"的——推理链对不上答案。
看Math那一行的左图。Llama的aligned proportion稳定在30%左右,而Qwen-Math在60%上方。直接的解读是:Llama做对的题里有2/3是"瞎对"——它写出了一段看似合理但其实和答案没逻辑关系的推理过程。
那为什么reward还能涨呢?因为奖励只看final answer,不看reasoning trace。模型可以学会一种策略:生成大量看起来不一样的推理过程,但最后总是指向那个见过的答案。这正好同时解释了: 1. 训练reward涨得快——因为它在快速memorize正确答案 2. diversity高——因为推理路径花样多 3. 泛化差——因为推理本身不是真的,换个问题就崩 4. 不耐噪声——因为memorization能力强,错答案也能背下来
Faithful diversity这个指标更狠——只算faithful response里的diversity。Llama的faithful diversity就立刻塌下来了,因为它真的faithful的回答非常少。这下整个画面就清晰了:真正预测泛化能力的,不是raw diversity,也不是aligned proportion单独,而是两者的交集——"模型能用多少种不同的、真正有逻辑的方式去解题"。
我读到这里有个挺强的感受——这是过去半年所有RLVR玄学的根源。1个样本能work、随机奖励能work、self-certainty能work,说到底都是因为Qwen这种model在预训练时就已经"会做"那些题了,RL只是在挑动pre-existing pattern;只要pattern还是faithful的,挑动一下也涨。但你要是模型本身就不会,那RL再挑也只是教它"答对"而不是"会做",于是就出现Llama这种"训练reward涨但不泛化"的情况。
干预方案:CPT + Thinking SFT,把Llama"修"成能泛化
如果faithfulness是关键,那能不能在RL之前就把faithfulness打进模型里?作者跑了一组2×2的对照实验:
- Initialization:Base / CPT(在52B math token上continual pre-training一个epoch)
- SFT regime:Thinking SFT(用OpenThoughts-114K里的完整推理轨迹做SFT,约1B token) / Non-Thinking SFT(同样的prompts但只SFT最终答案,约0.27B token)
加上Llama3.2-3B-Instruct作为参考,一共5种pre-RL configuration,然后跑三种弱监督设置:scarce data (N=8)、majority vote、noisy reward (γ=0.7)。
结果非常有意思:

图6:CPT + Thinking SFT(红色实线)几乎在所有设置下都是top performer。Instruct(绿色点划线)和Base + Non-Thinking SFT(蓝色虚线)基本是flat或者降。这张图把"Thinking SFT是必需品 + CPT是放大器"的claim非常清楚地展示出来了。
三个核心发现:
-
Thinking SFT是必需的。Instruct baseline在三种设置下RL之后基本不涨甚至降;只有用Thinking SFT初始化,下游才有显著gain。Non-Thinking SFT就算配合CPT,在scarce data和majority vote上也几乎不work。
-
CPT是放大器,不是替代品。CPT + Thinking SFT 比 Base + Thinking SFT 强很多,但CPT + Non-Thinking SFT几乎不涨——同样的52B token CPT compute,配上不同的SFT target,差距巨大。这排除了"compute堆出来的"解释。
-
三种弱监督全部恢复。原本的Llama-Base在三种设置下全部失败,CPT + Thinking SFT在三种设置下全部成功。
更关键的是验证了"faithfulness是中介变量"这个因果链:

图7:CPT + Thinking SFT(红色实线)的faithful proportion稳定在40%以上,远高于其他配置。这就形成了完整的因果链——CPT+Thinking SFT → 高faithfulness → 长pre-saturation → 强generalization。
我特别欣赏这个实验设计的精妙之处:Thinking SFT和Non-Thinking SFT用的是完全相同的prompts,只是target output不同。Thinking SFT给完整的推理轨迹,Non-Thinking SFT只给最终答案。这就把"SFT本身"和"SFT教不教推理"两件事彻底分离了。
我的判断:这篇论文真正值钱在哪
看到这里你可能觉得:这不就是"SFT能补,CPT能补"吗?没什么新东西啊。
但我得说,这种看法低估了这篇论文。它的价值不在于提出了一个新方法,而在于提供了一个统一的解释框架。
之前的圈子是这样的:
"我们用1个样本RL也能涨7个点!" "我们用随机奖励也能涨6个点!" "我们用self-certainty也能涨!" "等等,我们换了Llama怎么不涨了?" "那肯定是Llama的探索能力差……"
每个声音都看似有道理,但凑不到一起。这篇论文给出了一个能把这些都装进去的解释:
RLVR不是在"教"模型推理,它是在"释放"预训练里已经存在的faithful reasoning。如果预训练里没埋下faithful reasoning的种子,RL再怎么训也只能教会模型快速memorize答案,不会真的学会推理。
从这个视角往回看: - 1个样本能work:因为Qwen-Math本来就会做这种题,1个样本足够触发pattern - 随机奖励能work:因为奖励信号即使错了,只要模型自己产生的rollouts有相当比例是faithful的,GRPO的clip机制就会偏向放大这些pattern(这点和Spurious Rewards那篇论文呼应) - self-certainty能work(在Qwen-Math上):因为Qwen-Math的self-certainty本来就和answer correctness高度相关 - Llama不work:因为它的预训练里没充分埋下math reasoning的pattern,RL释放不出什么东西
这个解释框架的力量在于:它把"RLVR能做什么"的边界画清楚了。以后再看到论文说"我们用xxx弱监督也能work",第一反应应该是"在什么model-domain pair上work?这个pair的pre-RL faithfulness水平如何?"
几个值得追问的地方
我一边写一边在想这篇论文有没有问题。几个我不太确定的地方:
第一,faithfulness的判断完全依赖LLM-as-a-judge(用OpenAI o3)。Cohen's Kappa 0.752算"substantial agreement"了,但毕竟是模型在评模型,会不会有systematic bias?比如o3和Qwen的reasoning style更相似,所以打Qwen的分更宽松?这个作者也承认了,是future work。
第二,"模型族对比作为预训练先验代理"这个设定。作者反复强调"我们不是在说Qwen内禀比Llama强,我们是在说有强math先验 vs 没有强math先验"。这点我同意,但读者很容易误读成"Llama不行"。Section 4的CPT实验确实证明了Llama也能修好,但需要52B math token的额外投入——这个成本对一般团队来说不算小。
第三,scope限制。所有实验都在1.5B-8B规模上做的。30B+规模上是不是同样的pattern?大模型的pre-training prior应该更强,会不会saturation phase更长,对noise更耐受?这块作者明确承认是future work。
第四,Thinking SFT本身就需要高质量的reasoning trace数据集(OpenThoughts-114K)。这种数据集对math/code这种"标准答案"任务好搞,但对开放领域(医疗咨询、科研讨论)就难了。所以这套方案在开放任务上的可迁移性还是个问号。
但这些都不影响我对这篇论文的整体评价。它把一个圈子里悬了一年的根本问题给挑明了。
几个让我意外的细节
读完整篇我列了几个让我"卡住一下"的发现:
1. Math-specialized model在Graph上训能让Math涨21个点
Graph任务是Quantum Lock和Largest Island这种算法题,和competition math表面上完全不像。但Qwen2.5-Math-7B训Graph能让OOD的MATH-500涨21个点。这说明RL期间学到的不是domain-specific的trick,而是更general的"逻辑推理过程"——只要pre-training已经埋下了faithful reasoning的根,跨域迁移就能发生。
2. 训练reward曲线和噪声水平脱钩 = memorization的指纹
这是一个非常清晰的诊断信号。如果你的模型在γ=0和γ=0.9的训练reward曲线几乎重合,那基本可以判定它在memorize。这个观察对工程实践有直接指导价值——以后跑RLVR可以专门留个noise probe测一下。
3. CPT alone不行,Thinking SFT alone帮助有限,必须组合
这个组合效应很反直觉。如果CPT是"教模型领域知识"、SFT是"教模型推理pattern",那两个相加应该是additive。但实验显示这是multiplicative的关系——单独都不太行,结合起来突然就work了。一个可能的解释是:CPT建立了knowledge representation,Thinking SFT教模型怎么"用"这些representation去构建推理链;缺一不可。
4. Diversity高不一定是好事
这个发现我觉得对RLHF/RLVR的实践有最直接的影响。之前圈子里普遍把output diversity当成exploration健康度的代理指标,所以很多人会刻意维持高diversity。但这篇论文表明,raw diversity可能是unfaithful reasoning的副产物——模型在用"花式推理路径"掩盖"答案是背的"这件事。faithful diversity才是真正应该追的指标。
工程启发:如果你正在做RLVR
如果你的团队正在做RLVR相关工作,这篇论文给我的几条直接启发:
1. 加一个saturation diagnostic。每次跑RL训练,监控training reward曲线的形态。如果reward在50步内就饱和到max的99%、但下游性能没怎么涨,别再加更多RL compute了——你的pre-RL prior不够,再训也是浪费。把compute挪到pre-RL干预上去。
2. 加一个noise probe。训练正式开始前,用γ=0.5的noisy reward跑一个短训,看reward曲线和clean training比有没有明显gap。如果几乎没gap,你的模型在memorize。这是一个比传统overfitting metric更早能发现问题的信号。
3. Faithfulness监控比diversity监控更重要。在你的RL pipeline里加一个faithfulness eval(用一个相对强的judge model,对一组held-out prompts定期打分),观察aligned proportion随训练的演化。这是预测最终泛化能力的leading indicator。
4. 如果你的base model不work,想清楚是domain prior不够还是reasoning pattern不够。前者用CPT补,后者用Thinking SFT补,多数情况下两个都要。别想着"加更多RL data就能修好"——这条路很多时候是个坑。
5. 对小模型做reasoning RL要格外谨慎。1.5B-3B这个scale下,pre-training prior对RL outcome的决定性影响最大。如果你的目标是reasoning,优先选择那些预训练时见过相关分布的base model(比如Qwen-Math系列),而不是迁移成本更高的general-purpose model。
再聊几句这一波"RLVR神话"
最后想唠几句感想。RLVR这一年多在reasoning方向引发的兴奋是真实的——R1出来的时候大家都觉得我们走在了一条新路上。但慢慢地一些奇怪的结论开始堆积:
"1个样本就能涨" "随机奖励也能涨" "self-supervised也能涨"
这些声音叠加起来制造了一种印象:RL本身有某种神秘的"教导能力",能凭空赋予模型推理技能。
这篇论文非常冷静地把这个神话拆掉了。它告诉我们:你看到的"RL奇迹",绝大部分是pre-training已经装好的东西被RL释放出来的样子。如果pre-training没装,RL变不出魔法。
这并不否定RLVR的价值。GRPO这套机制依然是把模型从"会做"推到"擅长做"的高效手段。但它把RLVR放到了一个更准确的位置——它是pipeline的最后一个环节,前面的pre-training和SFT决定了它能做什么、做不到什么。
引用作者结论里那句话:
"RL under weak supervision is best understood not as a training technique applied to a fixed model, but as the final stage of a pipeline whose success is largely determined before RL begins."
这句话可能会成为接下来很长一段时间内RL方向的一句"金句"。它把整个领域的注意力从"调RL算法"拉回到"投入pre-RL training"——因为后者的杠杆其实更大。
如果你做reasoning RL,这篇论文值得反复看几遍。它的实验设计干净到可以当教科书读,结论又狠到逼着整个圈子重新审视过去一年的工作。我自己的预测是,2026年下半年会有一波"如何系统性地构建pre-RL prior"的研究浪潮起来。
至于这篇论文本身的局限——主要是规模(最大8B)和judge的可靠性——这些都需要后续工作去补。但它给出的解释框架,已经足够让一大批"看起来矛盾"的结论自洽起来了。
这就是好论文的标志:不是它造了个新东西,而是它让你重新理解了旧东西。
觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我