大同PVC管道管件粘结胶微软研究团队造"智能驾": 让电子表格自动帮你完成下步操作

发布日期：2026-06-23 02:01:26 点击次数：102

这项由微软班加罗尔、雷德蒙德和比利时科尔贝亨三地团队联完成的研究，发表于2026年43届机器学习大会（ICML 2026），会议地点为韩国尔，收录于PMLR 306会议论文集，论文编号为arXiv:2606.13802。感兴趣的读者可通过该编号检索完整原文。

每个人都有过这种经历：盯着张密密麻麻的电子表格，要把每列的标题加粗、每行加边框、某些关键数字标上颜，百多个操作个个手工点击下去，手指酸、眼睛累，却偏偏没有任何"自动完成"来帮你把。写代码的人有GitHub Copilot，字的人有输入法联想，偏偏天天被数亿上班族使用的电子表格软件，在这面几乎是片空白。

微软的研究团队注意到了这个奇怪的空白，并决定从两个角度同时发力来填补它：，造个门用来测试"表格操作预测系统"的标准考题库；二，设计套能够真实模拟用户使用体验的考试式。这两件事听起来简单，做起来却各有各的难处，而这正是这项研究真正有趣的地。

、为什么给表格造个"预测助手"这么难？

回到个熟悉的场景：假设你正在用Excel整理份季度销售报表。你先输入了行的标题，然后加粗，然后给标题行加了蓝背景，然后给整个表格画了外框……这系列操作背后其实有着明显的规律——你大概率接下来会给数据行加内框、给计行加粗并换个颜。如果有个助手能在你完成每步操作之后，提前猜到你接下来要做什么，就像字时输入法自动补出后半句样，那岂不是能省下大量重复劳动？

然而表格操作预测面临着代码补全从未遇到过的两大困难。其，网上从来没有"用户步步制作表格的完整过程录像"这类公开数据。互联网上能找到的顶多是做好的成品表格，就好像你能在博物馆里看到完成的雕塑，却没有任何雕刻过程的录像。其二，表格操作其复杂：它涉及空间位置（在哪个格子操作）、时间顺序（先做什么后做什么）以及操作的组（次操作可能影响大片区域），这比代码补全要混乱得多，因为代码是线的，表格是二维的，而且同样的终果可以由不同的操作顺序产生。

微软团队为这两个问题分别想出了解决办法。针对个问题，他们花了大量人力手工制作了批"表格制作过程"的操作记录；针对二个问题，他们设计了套全新的"在线评估"机制，而不是沿用传统的简单分式。

二、那五万两千步是怎么造出来的？

由于现有的公开表格数据库里根本没有操作过程，研究团队只能另辟蹊径——从成品表格出发，反向演用户可能经历的操作步骤。这个过程可以用个烹饪比喻来理解：你拿到道菜，然后尝试写出厨师做这道菜的完整菜谱。

整个制作流程分三个阶段。阶段叫做"符号冷启动"。给定张做好的表格，程序会自动把表格上所有的格式和数值拆解成个个基础的操作，比如"给A1格输入数值"、"把B1:B5加粗"等，并把相邻的相同操作并成区间操作。为了让生成出来的序列有多样，程序还会随机抽取组"偏好设置"，控制操作如何排序——有的表格按行优先，有的按列优先，有的先做内容后做格式，有的反过来。在这之前，还有个视觉-语言模型会先浏览每张表格的截图，为每个区域上语义标签，识别出哪些区域是数据表、哪些是标题块、哪些是汇总区，以及哪些部分的数据很可能是从别处粘贴进来的。

二阶段叫做"大模型润"。符号程序生成的操作序列虽然上正确，但看起来过于机械——就像个机器人厨师按照低的路线做菜，而不像个有经验的人类厨师那样自然流畅。于是研究团队引入了个"评委-编辑"循环：评委模型阅读当前操作序列，判断它看起来是否像人类的行为，如果不像就给出修改意见；编辑模型按照意见重写序列；重写后的序列会被执行验证，确认终结果和目标表格吻，才通过。这个循环多进行四轮。典型的润操作包括：把散散的逐格式调整并成区间操作、删去空白区域上意义的格式、去掉文字格插入数字格式这类明显的反常之举。

三阶段是人工标注。研究团队的成员（也就是论文的作者们）会逐帧观看操作序列，识别出那些机器改不好的不自然之处并手工修正。从终数据来看，人工修改的幅度相当大——操作序列在人工处理前后的平均"编辑距离"（衡量改动幅度的指标大同PVC管道管件粘结胶，可理解为序列被改变的比例）达0.69，也就是说平均有近七成的内容发生了改变。52份序列中有19份被直接从头重写，说明人工介入是这套数据集质量的核心保障，不是走过场的。

终得到的数据集包含52条完整的表格制作轨迹，共11907步操作，每条轨迹的步骤数从35步到821步不等，平均229步，中位数164步。从操作类型的分布来看，输入数值操作占比，达57.1，其次是字体设置（11.6）、对齐（6.9）、边框（6.3）、数字格式（5.6）、填充颜（5.5）、并单元格（4.9）、自动填充（1.7）和粘贴（0.4），覆盖了日常表格操作的大多数场景。

研究团队还做了个"理论上限"实验：调用多个顶理模型（包括四个不同版本的前沿大模型），在每步操作时提供完整的历史记录和当前表格截图，让模型竭尽全力预测接下来会发生什么，然后把所有模型的正确预测并成个"全知全能的预言集"。结论是：52条轨迹中，平均有68的操作属是理论上可预测的，中位数66.3，44条轨迹的可预测比例过50。这意味着大多数表格操作并非随机的灵光现，而是有迹可循的——这为整个研究的可行提供了理论依据。

三、为什么不用传统的"考道题对个答案"的式？

传统的人工智能评估通常是这样：给模型看N步的状态，让它预测N+1步是什么，然后对比答案。这种式在表格操作预测上存在个致命的漏洞——它忽视了预测结果对后续操作的影响。

个比：你正在搭栋积木房子，每次搭之前有个助手会建议你下块该放哪里。如果助手建议你在不对的位置放了块积木，那接下来所有的积木都得跟着移位，后续的每步都变了。如果只是在草稿纸上画"下块该放哪里"，而不是真的放上去，那评估就脱离了现实——助手的错误永远不会引发连锁反应，看起来比实际好得多。

研究团队提出的"在线评估"（Online Evaluation）正是为了解决这个问题。它的运作逻辑是个完整的动态游戏，而非次静态问答。游戏在张空白表格上开始，有个"待完成的操作队列"代表到达目标表格所需的全部步骤。每次用户执行步操作，预测系统就会被调用，给出它认为接下来应该做的事情。这个预测会被分：精确率衡量预测里有多少是对的，"用户动作节省量"衡量如果接受这个预测，用户能少做几步。接下来关键的步来了：根据某些接受标准，系统决定"接受"还是"拒"这个预测。

如果预测被接受，操作就真的被执行到表格上，然后"待完成队列"要随之新——已经被预测正确完成的操作从队列中移除，而预测错误产生的"坏果"则被以修正操作的形式添加到队列前面（比如预测把C3格填成了绿但实际上不应该填，那就要在队列里加个"清空C3颜"的步骤）。如果预测被拒，队列不变，游戏继续，用户执行下步真实操作，再触发新的预测。这个循环直持续到表格完成为止。

这个机制的精妙之处在于三点：错误会像真实世界样产生连锁反应，好的预测真的能改变游戏进程而不只是在纸面上得分，以及系统须在自己曾经犯过错的状态下继续预测，考验它的纠错能力。

在这个框架下，研究团队定义了套从细到粗的指标体系。细粒度的是"操作属"指标：每个（格子，属）对被分为四类——预测正确的真正例、预测了但目标里没有的假正例、目标里有但没预测到的假负例、预测了但值对不上的错配。在此基础上，精确率衡量每次预测有多少比例是正确的，用户动作节省量衡量接受预测后实际少做了多少步。粗粒度的是"全轨迹"指标：总用户动作节省量（以百分比衡量减少了多少操作量）、接受率（预测被采纳的比例）、平均精确率，以及"可预测覆盖率"（衡量模型在理论上可预测的操作里实际预测对了多少比例，相当于用可预测上限做分母的成绩单）。

四、谁来参加这场考试？各自表现如何？

研究团队为这套评估框架准备了多种类型的"考生"，从顶的大模型到朴素的统计模型，横跨了个很宽的技术谱系。

类是样本大语言模型大同PVC管道管件粘结胶，也就是不门训练、直接拿现成大模型来用的案。操作被编码成文本，比如"将A1格填充为绿"被写成"FILL | A1 | green"这样的格式，然后把近的操作历史和可用操作语法起喂给模型，让它输出预测。研究团队测试了四个版本：带理模式的GPT-5-R、普通版GPT-5、带理模式的GPT-5-R mini和GPT-5 mini，其中加"R"后缀的版本启用了低强度的理模式。

二类是门为这个任务微调过的小型语言模型。研究团队使用的是SmolLM2，分别取了1.35亿参数和3.6亿参数两个规格，用符号生成流程在1.2万张与评估数据集不重叠的工作簿上生成了大约4.5万条训练样本，然后做监督微调。每个训练样本的输入是32步历史操作，输出是接下来16步。

三类是经典机器学习法，包括训练好的n元语法模型、在线n元语法模型（不需要预训练，只看当前轨迹里已经出现过的操作模式）、LSTM经网络和XGBoost决策树集成。这些模型都使用相对特征而非对特征——也就是说，它们记录"往右移了几列"而不是"在几列"，这样能好地跨轨迹泛化。

评估分两种模式。多动作预测模式下，模型每次调用可以口气预测任意数量的操作，自己决定什么时候停下来。单动作重预测模式下，每次只预测步，如果被接受就立刻再预测下步，直到某次预测被拒为止——这个模式门为那些自己不知道该何时停止的模型设计，通过外部接受机制来控制节奏。

从单动作重预测模式下的结果来看，大模型族群的表现形成了清晰的梯度：GPT-5-R以32.7的总用户动作节省量先，PVC管道管件粘结胶GPT-5-R mini以28.2紧随其后，GPT-5为27.4，GPT-5 mini则降到18.0。模型越强，节省越多，这证明了任务本身是可以通过学习来提升的，而非碰运气。

微调带来的提升同样显著。未经微调的SmolLM2-360M只能节省21.7的动作，经过微调后跃升到26.8，几乎追上了参数量大得多的GPT-5（27.4）。135M版本从18.3提升到23.2。考虑到小模型的理成本远低于大模型，这个结果说明项训练在这个任务上的价值不亚于模型规模。

经典法中，在线n元语法以12.0的成绩成为强非学习基线，LSTM为5.7，训练好的n元语法为3.8，XGBoost仅2.9。在线n元语法不需要任何预训练，只靠识别当前轨迹中出现过的重复模式，在边框传播、并单元格等结构操作上表现不俗，但碰到需要理解语义内容的输入操作就失灵了。

五、什么时候接受预测？什么时候拒？

个关键但容易被忽视的问题是：系统应该用什么标准来决定接受还是拒预测？研究团队测试了多种接受策略，结果揭示了些颇为反直觉的规律。

宽松的策略叫ALWAYS——不管预测质量如何，只要不是空的就接受。这个策略下，系统的平均精确率只有9.3，用户动作节省量跌到了负19.2，也就是说反而给用户增加了将近20的额外工作量。52条轨迹中有51条触发了安全上限（步骤数达到目标的120就强制停止），说明不加节制地接受预测会让表格越改越乱。这个结果清晰地说明：系统须有选择地说"不"，而不是来者不拒。

贪婪策略（GREEDY）只要预测能带来净收益（即用户节省的步骤数大于）就接受，这是目前果好的策略之，在多动作模式下实现22.3的节省量和20.0的接受率。与此相比，仅基于精确率的策略表现出人意料地差：P90（精确率达到90才接受）只能节省17.0，P60（精确率60）只有13.3，甚至P100（正确才接受）也只有19.9，都比贪婪策略低。道理在于：精确率不等于对用户有用，个预测可能所有操作都对，但如果这些操作用户自己两秒钟就能做完，那接受预测并没有意义；反过来，个精确率稍低的预测，如果能次完成大批操作，用户节省的总量可能大。

严格的筛选策略（要求精确率且至少节省2步的HYBRID-2）接受率只有7.9，节省量也降至17.5——比贪婪策略低了将近5个百分点。这说明过于挑剔反而会错过大量"虽不但很有用"的预测，得不偿失。

六、多操作大同PVC管道管件粘结胶，快越来越准

研究结果还揭示了几个很有实际意义的规律。

预测触发频率对终果影响巨大。每做步就触发次预测（步幅s=1）时，总节省量为22.3；每做四步才触发次（s=4）时降到14.7；每做八步才触发（s=8）则只剩9.8。触发越频繁，节省越多，尽管接受率反而随着触发频率降低而上升（s=8时接受率36.5，远于s=1时的20.0）。原因是：频繁触发时预测质量参差不齐，很多被拒；但只要抓住了对的时机，次接受就能节省多步，累积下来总量可观。这个发现意味着，未来的研究向之是开发低成本、精度的"预测时机判断器"——不是每步都触发，而是识别出有可能出现规律操作的时刻再触发。

上下文窗口越长，预测越准，但收益递减。把模型能看到的历史操作数从8步增加到32步，节省量从19.9提升到22.3；增加到128步时提升到27.6；但从128步继续增加到512步乃至2048步，收益几乎停滞（27.4）。这说明大约近128步的操作历史包含了大部分有用的预测信息，盲目扩大上下文窗口的边际收益很快就会消失。

预测链越长，反而越容易被接受——当这种情况发生时。对于单次能预测多个操作的多动作模式，预测1步时接受率只有18，预测4到5步时升到23，预测11到15步时达到31，过15步时达51。解释是：当模型选择口气预测很多步时，通常是因为它识别到了段强烈的重复模式（比如在排格子里传播同种格式），这种情况本来就是接受标准容易满足的时候；而短预测往往对应着不那么确定的时刻，模型自己都没信心，接受率自然低。换句话说，预测长度本身是模型自信程度的隐信号。

随着操作序列进，预测准确率也在持续提升。在轨迹开头（前10的步骤），接受率只有约12.5；到了后10的步骤，接受率上升到约24。这反映出个"冷启动问题"：操作刚开始时模式还没建立，预测基本是瞎猜；随着历史积累，模型越来越能识别用户的行为习惯和格式规律，预测也越来越靠谱。这个规律提示未来的系统可以采用自适应触发策略，早期少触发预测，等模式建立后再积触发。

不同类型的操作，预测难度差异悬殊。内容相关操作（输入数值、粘贴、填充颜、并单元格）的接受率明显于样式相关操作（对齐、数字格式、边框）。GPT-5在输入数值操作上表现好，因为它本身就对文字内容有强大的预测能力；而在线n元语法在并、边框、粘贴等纯结构重复操作上表现出人意料地不错。微调小模型的大进步恰恰集中在未微调版本差的几类操作上——数字格式、填充颜、边框和自动填充各提升了约10个百分点，说明项训练对这些"规律强但语义弱"的操作类型有。

预测中越靠前的操作越准。在被接受的预测中，位于预测序列前四分之的操作有约19.5达到精确率，而位于后四分之的操作这比例降至约14.7——助手在确定应该做什么时，先做对的部分，然后逐渐漂移失准。被拒的预测从头到尾都很差（前四分之约3.5，后四分之约1.5）。这意味着，在单条预测内部也存在"及时住"的机会：个好的系统不仅要知道什么时候不发出预测，还要知道什么时候在预测进行到半时喊停，掉末尾那些没把握的操作。

七、这套"考试"到底教会了我们什么？

如果用句话概括这项研究的核心发现，那就是：表格操作预测是个真实可学的任务，但要做好它，"何时不说话"和"何时说话"样重要。

研究团队发现，大模型的能力与任务表现呈现清晰的正相关，这排除了"表格预测是运气"的可能，说明确实存在可以学习的规律。同时，3.6亿参数的小模型经过项微调后几乎追上了GPT-5，说明任务本身并不要求边际的通用智能，适的训练数据和适的任务设计可以让小而精的模型发挥大作用。

另面，ALWAYS策略的惨败（负19.2节省量）清晰说明了"不知道什么时候停下来"是当前所有模型的共同软肋。现有的大模型在没有明确用户意图信号的情况下，既不知道该不该发出预测，也不知道预测到哪里该停下，这是未来须门研究的向。

接受策略的比较结果则揭示了个刻的真相：系统的价值不由预测的正确率单决定，而由正确率和覆盖范围共同决定。个稍微不那么精确但覆盖面广的预测，往往比个精确但很保守的预测给用户带来多实际收益。这意味着未来的评估和训练都不能只盯着精确率，而须把"用户实际节省了多少努力"纳入核心优化目标。

归根结底，这项研究的意义并不只是给现有系统了个分。它提供了整套法论——如何构建真实的测试数据、如何设计能捕捉交互动态的评估机制、如何用多粒度指标诊断系统的具体短板。任何想在这个向继续挖的团队，都能在这套框架里找到明确的起点和努力向。下次当你坐在电脑前，对着表格遍遍重复同样的格式操作时，也许离个真正能读懂你意图的"表格驾"已经没有那么遥远了。

有兴趣入了解技术细节的读者，可以通过arXiv编号2606.13802查询完整原文，代码和数据集也已在论文中提及的GitHub仓库公开。

Q&A

Q1：电子表格操作预测和代码自动补全有什么区别，为什么表格难？

A：代码是线的文字序列，行接行，规律相对集中，现有的补全技术可以直接套用。表格是二维的，同个终果可以由不同的操作顺序产生，操作还会影响空间上分散的区域，加上公开数据库里根本没有"制作过程"的记录，只有做好的成品，这让数据收集和模式学习都比代码补全困难得多。

Q2：微软这套评估框架为什么要用"在线评估"而不是传统分式？

A：传统评估是在草稿纸上分——预测对了就得分，但错了也不影响后续。实际使用中，预测旦被采纳就会真实改变表格状态，个错误会引发后续连串的连锁修正。在线评估就是让预测真的"落地执行"，把因此产生的额外修正工作量都计入成本，得到的结果才能反映用户真实的使用体验，而不是假设的理想情况。

Q3：门针对表格操作微调的小模型，为什么能接近比它大得多的GPT-5？

A：表格操作预测度依赖"局部重复模式"，比如把同种边框格式沿行传播、把相同颜填到列数据里。这类规律强但语义弱的任务，不需要海量通用知识，只需要在大量真实表格操作序列上反复见过这些模式，小模型样能掌握。项微调恰好提供了这种训练信号，所以3.6亿参数的模型在这个任务上能几乎追上千亿参数别的通用大模型。相关词条:管道保温施工塑料挤出设备预应力钢绞线玻璃棉厂家保温护角专用胶

奥力斯万能胶生产厂家联系人：王经理手机：13903175735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

上一篇：日照家具封边胶价格农银汇理基金换帅难掩困局：固收占比八成，主动权益“风光不再” 下一篇：江西海绵专用胶外媒：越俄罗斯成为世界二大空军强国，挑战美国主地位

大同PVC管道管件粘结胶 微软研究团队造&quot;智能驾&quot;: 让电子表格自动帮你完成下步操作

发布日期：2026-06-23 02:01:26 点击次数：102

大同PVC管道管件粘结胶微软研究团队造"智能驾": 让电子表格自动帮你完成下步操作