大语言模型在解心算题时,只依赖最后一个token?
最近,来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现:在心算任务中,几乎所有实际的数学计算都集中在序列的最后一个token上完成,而不是分散在所有token中。
(资料图片)
这意味着,相较于在Transformer和多层感知机(MLP)中常见的全局信息访问——即每个token在预测时都能查询并利用整个上文信息——在诸如心算这样的特定任务中,全局访问其实并不是必需的。
这是怎么一回事?
心算只要最后一个token?!
总的来说,研究人员采用了上下文感知平均消融(Context-Aware Mean Ablation, CAMA)基于注意力的窥视(attention-based peeking)技术对Llama-3-8B等Transformer架构的模型进行了一系列的消融实验。
这些实验通过系统性地移除或改变模型的一部分,探究能让模型依然表现良好的“最少计算量”
在这一过程中,研究人员发现模型内部会形成一个稀疏子图(sparse subgraph)——他们把它称为“人人为我”(All-for-One, AF1)。
这个子图通过最少的计算层和最有限的信息传递,让模型高效完成运算。
在“人人为我”中,输入Transformer前几层(L_wait)的token并没有做跟“自己数值”相关的计算,而是“等待”,并主要承担一些通用的准备工作(比如识别token、结构编码、预测下一步所需的通用表示)。
然后,在中间的两层(L_transfer)里,它们就将信息传递给最后一个token。
之后,最后一个token独自完成计算并给出答案。
(注:这篇研究聚焦于心算任务,即涉及两个或三个操作数的算术问题(例如42+20−15),这些问题可以通过单个token的输出解决,而无需模型进行显式的链式思维推理。)
接下来,我们具体来看。
众所周知,大语言模型在许多计算任务上表现出色,而其中一个重要原因是其采用了Transformer架构。
与RNN不同,Transformer允许任意token通过自注意力机制立即访问所有先前的token以传递信息,并使每个token能够通过多层感知机(MLP)并行执行各自的独立计算。
但即便如此,模型内部的信息流和计算过程仍然是不透明的。
因此,为了揭开大语言模型的“黑箱”,研究人员采用了以下三个步骤来进行探索。
首先,在模型的初始层抑制token针对特定输入的计算
研究人员发现,在传统Transformer的每一层中,token都能访问所有之前的token,但对于简单的心算任务,每个token可能未必从一开始就要获得全局信息。
由此,研究人员引入了等待期(L_wait):让在前面的L_wait层中的token独立计算,只执行任务通用操作(如理解数字、识别算术结构),而不访问其他token。
为了实现这一点,他们使用了上下文感知平均消融(CAMA)
CAMA的作用是屏蔽掉token之间的输入特定信息,同时保留每个token的普遍计算能力,使模型能够在不依赖具体输入的情况下完成基础准备工作。
接下来,在少数几层中限制跨token位置的信息传递路径。只让最后token在L_transfer层中访问所有token,其余层只关注自己。
最后,在剩余的层中强制所有计算都在最后一个token上发生
由于CAMA只能从第一层开始,因此,研究人员引入了一种可以在任意层控制信息访问的方法——基于注意力的窥视(ABP)
它通过修改注意力掩码(attention mask),精确指定每个“查询”(query)token可以关注哪些“键”(key)。
在这篇论文中,研究人员主要使用了以下两种模式:
实验验证
在完成方法和操作流程的构建后,研究者进行了一系列实验来发现、验证和分析AF1子图。这里主要涉及到Llama-3-8B和Llama-3.1-8B,以及在Pythia和GPT-J模型上的验证。
首先,通过三阶段消融与窥视实验,研究人员发现Llama-3-8B在A+B+C任务中只需前14层做任务通用计算(CAMA 层),然后通过2层信息传输让最后的token获取全局信息,剩余层仅进行最后token的自计算。
这个几乎保留全部性能的子图被命名为AF1_llama
接下来,研究人员又进一步验证了AF1_llama在Llama-3-8B和Llama-3.1-8B上的表现。
实验表明,AF1_llama在八个任务中总体表现出高忠实度。
更进一步,实验进一步验证了第15和16层的信息传输在Llama-3-8B中的重要性。
研究表明,仅少数注意力头对算术计算关键,即使移除近60个头部,模型仍能保持约95%的准确率,表明大部分注意力头冗余,而关键头集中在少数层。
此外,为了探究AF1_llama是否可以在Llama-3-8B上泛化到表示A+B和A−B运算的其他算术形式,研究进一步将口头描述运算以及将运算嵌入到应用题或Python代码中。
实验表明,AF1_llama在不包含额外语义上下文的直接算术任务中仍保持了相当高的准确率。
然而,它在需要语义理解的任务上,如应用题和Python代码,完全失败了,这表明它需要额外的组件来处理其他能力,比如理解自然语言或Python程序输入。
最后,研究人员在Pythia和GPT-J中也发现了类似AF1的子图,但与Llama不同,这些模型的等待期更短(L_wait ≈ 9–11)、信息传输层更长,且性能边界不如Llama清晰。
尽管忠实度普遍低于Llama,但对二元运算任务的子图仍能恢复超过一半的原始模型准确率。
总体而言,这项工作为大语言模型中的算术推理和跨token计算的机制理解做出了贡献。此外,它通过CAMA和ABP提供了方法论上的创新,可服务于算术任务之外的更广泛应用。
[1]https://x.com/rohanpaul_ai/status/1966788202238448101
[2]https://www.arxiv.org/pdf/2509.09650
AI解数学题只靠最后一个token-每日动态 AI解数学题只靠最后一个token,通用,算术,子图,上下文,数学题,token
为什么关注银行的投资产品多样性至关重要? 在当今复杂多变的金融市场中,银行投资产品的多样性是一个值得重点关注
“两分钟冲刺救援!” 三亚湾深水区一腿部抽筋女子成功脱险 9月13日,三亚湾海月广场附近水域上演了一场惊心动魄的生命守护战。一
三亚“红苗育梦”青少年红色旅游体验官活动启幕-每日热闻 9月13日,三亚市气象局展厅内,孩子们正专注聆听工作人员讲解气象知识
欣海船舶等“基于多点倾斜检测的船舶甲板面形变监测方法”专利获授权|要闻 天眼查APP显示,近日,浙江欣海船舶设计研究院股份有限公司,上海海事大
6000亿元!央行下周一操作 中国人民银行官网12日发布消息,为保持银行体系流动性充裕,2025年9月1
AI解数学题只靠最后一个token-每日动态 AI解数学题只靠最后一个token,通用,算术,子图,上下文,数学题,token
观速讯丨罗永浩:西贝的事情可以告一段落了 9月13日晚间,罗永浩发布微博称,西贝的事情可以告一段落了。期待预制
喝了三瓶啤酒多久可以开车上路三瓶啤酒几个小时能开车 【喝了三瓶啤酒多久可以开车上路三瓶啤酒几个小时能开车】在日常生活中
简讯:WTT澳门冠军赛:陈幸同晋级女单半决赛   9月13日,陈幸同在比赛中庆祝。  当日,在澳
WTT澳门冠军赛:陈幸同晋级女单半决赛   9月13日,陈幸同在比赛中庆祝。  当日,在澳
射击世界杯宁波站:姚千寻女子10米气手枪摘银 射击世界杯宁波站(步手枪)13日继续进行,中国选手姚千寻在女子10
观天下!2025五粮液山东省齐鲁超赛揭幕战 淄博齐稷联合赛前动员激动人心 2025五粮液山东省齐鲁超赛揭幕战淄博齐稷联合赛前动员激动人心,济南,山
视点!推进全球科技合作与创新 2025浦江创新论坛即将召开 从9月12日召开的2025浦江创新论坛新闻发布会获悉,论坛将以共享创新
为什么关注银行的投资产品多样性至关重要? 在当今复杂多变的金融市场中,银行投资产品的多样性是一个值得重点关注
每日播报!2025年9月14日青藏高原农副产品集散中心价格行情 2025年9月14日青藏高原农副产品集散中心价格行情
每日报道:中华v7口碑评价 【中华v7口碑评价】作为一款国产SUV车型,中华V7自上市以来在市场上获
【环球财经】埃及石油部长:埃及通过增加天然气生产节省了35亿美元进口费用 埃及媒体近日报道,埃及石油和矿产资源部部长卡里姆& 183;巴达维在埃及
具身智能如何从“能动”走向“灵动” 机器人服务在生活中越来越常见,但目前它们在力量精准度和控制能力
稳住电子信息制造业首位优势 新一轮十大重点行业稳增长行动方案正陆续出台。工业和信息化部、国
当前信息:“向新”“向智”进阶提速——从2025全球工业互联网大会看数智赋能制造升级 数字设施加快建设、智能工厂建成运营、未来产业悄然布局……2025全
我国拟修改网络安全法_焦点热闻  8日,网络安全法修正草案提交全国人大常委会会议审议。此次修
搭上“人工智能+”行动快车 产业互联网迎新机遇 近日,国务院印发《关于深入实施人工智能+行动的意见》(下称《意见
前沿热点:机器人行业加快迭代 万亿市场新赛道开启  日前在重庆举行的2025世界智能产业博览会上,一系列与人们生
中国四大汽车集团哪家质量好 【中国四大汽车集团哪家质量好】在选购汽车时,品牌质量往往是消费者最
每日信息:机器人行业加快迭代 万亿市场新赛道开启  日前在重庆举行的2025世界智能产业博览会上,一系列与人们生
以工业互联网新发展塑造制造业数字化转型新动能 工业互联网是新型工业化的战略性基础设施和发展新质生产力的重要驱
以工业互联网新发展塑造制造业数字化转型新动能 工业互联网是新型工业化的战略性基础设施和发展新质生产力的重要驱
银行大模型应用“加速跑” 数智化竞速开新局_热闻  各家银行刚刚披露的2025年半年报更新了大模型建设进展。记者
焦点要闻:新型工业化取得历史性成就 国务院新闻办公室9月9日举行高质量完成‘十四五’规划系
如何通过银行的财富规划实现财务目标? 每日简讯 在当今社会,每个人都有自己的财务目标,无论是短期的旅游计划、中期的
当前关注:以“人工智能+”开拓产业未来发展新赛道 2025年8月,国务院印发《关于深入实施人工智能+行动的意见》,将人
聚焦:新型工业化取得历史性成就 国务院新闻办公室9月9日举行高质量完成‘十四五’规划系
龙头企业整合加速 半导体行业并购活跃-每日焦点  8月以来,国内半导体行业的并购整合案例显著增多。据不完全统
龙头企业整合加速 半导体行业并购活跃_今日热文  8月以来,国内半导体行业的并购整合案例显著增多。据不完全统
数字藏品:政策助力脱虚向实 曾经,一张拼接而成的NFT(非同质化通证)绘画照片卖出数千万美元高
龙头企业整合加速 半导体行业并购活跃  8月以来,国内半导体行业的并购整合案例显著增多。据不完全统
“人工智能+”行动深入推进 工业智能体专业赛在北京启动-当前热讯 9月9日,第十四届中国创新创业大赛工业智能体专业赛在99全球链商节
记者观察|2025年服贸会开幕 世界共享“数智”服务新机遇-微资讯 2025年中国国际服务贸易交易会10日在北京开幕。本届服贸会的主题是
每日热闻!IASP2025年世界大会即将开幕 记者从北京市科委、中关村管委会获悉,国际科技园及创新区域协会(I
每日讯息!记者观察|2025年服贸会开幕 世界共享“数智”服务新机遇 2025年中国国际服务贸易交易会10日在北京开幕。本届服贸会的主题是
【焦点热闻】新华视点|AI融合·产业跃升:2025“人工智能+”行动纪实 国务院日前印发《关于深入实施人工智能+行动的意见》,明确提出以科
【时快讯】IASP2025年世界大会即将开幕 记者从北京市科委、中关村管委会获悉,国际科技园及创新区域协会(I
速递!记者观察|2025年服贸会开幕 世界共享“数智”服务新机遇 2025年中国国际服务贸易交易会10日在北京开幕。本届服贸会的主题是
2025年服贸会抢先看:机器人显身手 新技术集中亮相|快资讯 《中国证券报》10日刊发文章《2025年服贸会抢先看:机器人显身手
“人工智能+”加速释放强劲动能——透视我国智能经济发展新趋势 新消息 飞行汽车从科幻走向现实、人形机器人上演精彩的足球和拳击比赛、残
最新消息:“人工智能+”加速释放强劲动能——透视我国智能经济发展新趋势 飞行汽车从科幻走向现实、人形机器人上演精彩的足球和拳击比赛、残
聚焦人工智能 共促数贸发展 第四届全球数字贸易博览会将举办  数字贸易作为数字技术与国际贸易深度融合的新形态,通过拓展
AI内容“亮身份”是规范更是信任基石 9月1日起,《人工智能生成合成内容标识办法》正式施行,所有AI生成
每日热点:AI内容“亮身份”是规范更是信任基石 9月1日起,《人工智能生成合成内容标识办法》正式施行,所有AI生成
浙江杭州发布网约配送行业公约 多维度规范行业发展 为保障网约配送行业群体合法权益、规范网约配送行为,浙江杭州11日
观察:聚焦人工智能 共促数贸发展 第四届全球数字贸易博览会将举办  数字贸易作为数字技术与国际贸易深度融合的新形态,通过拓展
每日快报!2020雪铁龙c4毕加索进口 【2020雪铁龙c4毕加索进口】作为雪铁龙品牌旗下的经典MPV车型,C4毕加
银行的投资产品如何满足中小企业需求? 在当前经济环境下,中小企业的发展对于经济增长和就业稳定起着至关重要
BOE解忧实验室丨听见可持续的律动  《BOE解忧实验室》惊喜回归!第四季重磅升级,让大家通过节目
浙江杭州发布网约配送行业公约 多维度规范行业发展 为保障网约配送行业群体合法权益、...
“轻医美连锁品质管控新范式”圆桌论坛暨和颜一美德国莱茵TÜV授证仪式圆满落幕 2025年9月11日,一场聚焦医疗品质...
踏访内乡沃土寻振兴密码 深入产业调研绘青春答卷 编写:陈平 冯瑞雪 夏龙旭 李元...
顺丰以物流赋能,推动广东渔业链向全球价值链升级 随着开渔季的到来,“海鲜自由”成...
AI解数学题只靠最后一个token-每日动态 AI解数学题只靠最后一个token,通用...
为什么关注银行的投资产品多样性至关重要? 在当今复杂多变的金融市场中,银行...
“两分钟冲刺救援!” 三亚湾深水区一腿部抽筋女子成功脱险 9月13日,三亚湾海月广场附近水域...
三亚“红苗育梦”青少年红色旅游体验官活动启幕-每日热闻 9月13日,三亚市气象局展厅内,孩...
热点评!BOE解忧实验室丨听见可持续的律动  《BOE解忧实验室》惊喜回归...
「超级马路松」来啦!快到观山湖会展北路一起“街潮”狂欢!_焦点 拆条中2025年9月12日,贵阳市观山...
“两分钟冲刺救援!” 三亚湾深水区一腿部抽筋女子成功脱险 9月13日,三亚湾海月广场附近水域...
每日速读!车子上的离合器有什么作用 【车子上的离合器有什么作用】离合...
服贸会上的文旅“新”体验|新动态 9月13日,在文旅服务专题展区经开...
2019年新款朗逸多少钱 【2019年新款朗逸多少钱】在2019年...
三亚“红苗育梦”青少年红色旅游体验官活动启幕-每日热闻 9月13日,三亚市气象局展厅内,孩...
埃梅里:大马丁本场比赛多次拯救球队,我们要提升临门一脚的效率 埃梅里:大马丁本场比赛多次拯救球...
视讯!2019款日产轩逸怎么样值得购买吗视频 【2019款日产轩逸怎么样值得购买吗...
国内单体规模最大陆上风电项目正式运行 【国内单体规模最大陆上风电项目正...
政策助力制造业加速转型 规模以上高技术制造业增加值同比增...
焦点播报:汉兰达2020年新款的上市了吗 【汉兰达2020年新款的上市了吗】20...
跟队:蒂莱曼斯感到小腿肌肉疼痛因此半场被换下 周日将接受检查 焦点速讯 跟队:蒂莱曼斯感到小腿肌肉疼痛因...
2018汽车购置税是多少|焦点热讯 【2018汽车购置税是多少】在2018年...
25619人见证!淄博齐稷联合队战胜济南取得开门红 快播报 25619人见证!淄博齐稷联合队战胜...
车上的auto是什么功能怎么用 【车上的auto是什么功能怎么用】在...
欣海船舶等“基于多点倾斜检测的船舶甲板面形变监测方法”专利获授权|要闻 天眼查APP显示,近日,浙江欣海船...
泡泡玛特SKULLPAND上新 价格回归理性 每日视讯 近日,泡泡玛特SKULLPANDA“不眠剧...
鑫瑞捷电气取得一种汽车线束接插口处密封防水机构专利 国家知识产权局信息显示,绵阳鑫瑞...
6000亿元!央行下周一操作 中国人民银行官网12日发布消息,为...
长城SUV都有哪些新款-快讯 【长城SUV都有哪些新款】随着国内S...
每日消息!炸裂!签约27+26大中锋!掘金史诗级进化 炸裂!签约27+26大中锋!掘金史诗...
人保财险遵义分公司开展水稻保险查勘工作|焦点日报 多彩贵州网讯金秋时节,田野间稻浪...
动态:因买卖合同纠纷,晨日科技起诉江苏壹块屏光电股份有限公司 天眼查APP显示,近日,深圳市晨日...
车牌照w代表什么意思 每日观察 【车牌照w代表什么意思】在日常生...
水枪作笔 绘就缤纷童趣|每日速讯 近日,在团万柏林区委指导下,万柏...
新资讯:车牌号是由几位数组成的 【车牌号是由几位数组成的】在中国...
消息!索菱股份被执行55753元 天眼查司法信息显示,近日,深圳市...
国铁集团联合商业银行推出“铁路运费证”物流金融产品 9月9日,国铁集团联合商业银行推出...
国产拖挂房车价格10万左右推荐|速读 【国产拖挂房车价格10万左右推荐】...
景谷县小陶再生资源回收店(个体工商户)成立 注册资本50万人民币 通讯 天眼查App显示,近日,景谷县小陶...
久立特材:深海油气开采用管已成功应用于勘探与开采等关键环节 新资讯 同花顺(300033)金融研究中心09月...
新华全媒+丨2025年服贸会迎来公众开放日 此页面是否是列表页或首页?未找到...
每日资讯:深圳楼市,新消息! 近日,深圳出台楼市新政,当中提及...
聚焦:车面凹陷如何修复 【车面凹陷如何修复】车面凹陷是车...
中核四0四取得裂变电离室钛基金属膜及其制备方法专利 国家知识产权局信息显示,中核四0...
国足新帅候选人确认:51岁欧洲名帅,获专家看好,与卡纳瓦罗竞争 国足新帅候选人确认:51岁欧洲名帅...
能听、会说、还懂教育?百度智能云助力豆神教育打造新一代智慧家教产品-今头条 当前,人工智能以颠覆性力量重塑教...
车轮定位的原理是什么 焦点资讯 【车轮定位的原理是什么】车轮定位...
氢氧化锆商品报价动态(2025-09-13) 交易商品牌 产地交货地最新报价氢...
棕刚玉商品报价动态(2025-09-13)_观察 交易商品牌 产地交货地最新报价棕...
韩国海警救中国公民殉职,我使馆哀悼 9月12日,中国驻韩使馆向为营救中...
投保时如何确保保险的透明性?|精彩看点 投保过程中,保障保险的透明性至关...
10万以内真正越野车推荐 焦点消息 【10万以内真正越野车推荐】在预算...
国4云内490发动机参数 【国4云内490发动机参数】在当前的...
海南悬赏10万搜寻1架迫降无人机 海南悬赏10万搜寻1架迫降无人机
今日快讯:部分信用卡被盗刷,网友:已报警!浦发银行凌晨紧急公告 今天(9月13日)凌晨,浦发银行信...
烧机油怎么回事_动态 【烧机油怎么回事】“烧机油”是许...
视焦点讯!A股多空交织,3900点待整固 昨晚十年成长优选净值涨1 6%,跑...
中国船舶租赁将于11月13日派发中期股息每股0.05港元-看热讯 中国船舶租赁将于11月13日派发中期...