斗鱼体育(DouYuSports)官网入口-斗鱼体育app官网 32倍压缩率下性能反超25个点!破解长文本压缩「翻车」辛苦
你的位置:斗鱼体育(DouYuSports)官网入口 > 斗鱼体育 > 斗鱼体育app官网 32倍压缩率下性能反超25个点!破解长文本压缩「翻车」辛苦
斗鱼体育app官网 32倍压缩率下性能反超25个点!破解长文本压缩「翻车」辛苦
发布日期:2026-02-26 00:55    点击次数:81

斗鱼体育app官网 32倍压缩率下性能反超25个点!破解长文本压缩「翻车」辛苦

{jz:field.toptypename/}

COMI团队 投稿量子位 | 公众号 QbitAI

为什么现存高低文压缩要害在高压缩率下集体“翻车”?当模子把32K长文本压到1K,为何性能断崖式着落?

长文本压缩中容易保留浩荡“高度相似却重复”的实践,堕入“信息内卷”:看似保留了相关片断,实则堆砌了语义重迭的冗余token,反而误导模子生成失实谜底。

来自阿里巴巴将来生计实验室的沟通团队发现,这背后是压缩观点的根底错位:现存要害只眷注“相关性”,却忽略了“各类性”。当多个高度相似的token同期被保留,它们非但弗成叠加信息量,反而会相互侵扰(相关不即是正确),让模子在高度相似的冗余信息中迷失观点。

为破解这一困局,沟通团队漠视一个颠覆性不雅点:高质料的压缩,需要同期优化“与查询的相关性”和“信息单位间的各类性”。基于此,他们推出立异框架COMI(COarse-to-fine context compression via Marginal Information Gain),通过“旯旮信息增益”计算与粗到细压缩政策,在32倍高压缩率下仍能精确保留各类化的要害笔据链,论文已中稿ICLR 2026。

压缩的“智能标尺”:旯旮信息增益(MIG)

沟通团队发现,现存压缩要害存在盲区:过度依赖相关性导致冗余堆积,而忽略了token间语义相似性激励“信息内卷”。为此,他们使用旯旮信息增益(MIG)计算,将压缩方案从“单维度相关性”升级为“相关性-冗余性”双维度量度:

MIG = 本单位与查询的相关性 - 与其他单位的最大相似度

这一计算如同为每个token配备“信息价值计分卡”:既奖励与问题高度相关的片断,又科罚与已选实践高度重复的片断。

粗到细自顺应压缩,让每比特齐“天值地值”

有了智能标尺,若何竣事精确压缩?COMI领受两阶段政策,像指示丰富的裁剪相同“先谋篇布局,再锦上添花”

第一阶段:粗粒度组重分派——动态调配“压缩预算”

将长文本分辩为等长片断后,斗鱼体育appCOMI不再“一刀切”地均匀压缩,而是基于组间MIG动态袭击各段压缩率:信息密度高、冗余度低的片断(如包含要害笔据的段落)得到更宽松的压缩率;而信息寥落或高度重复的区域则被大幅压缩。这种自顺应分派确保有限的压缩预算精确投向“高价值信息区”

第二阶段:细粒度token和会——加权和会幸免“信息稀释”

在每个片断里面,COMI根据token级MIG进行加权和会:高MIG token(相关且独到)在和会中占主导权重,低MIG token(冗余重复)被当然稀释。这一机制灵验幸免了传统平均池化导致的“要害细节被平滑掉”的问题,使压缩后的示意既紧凑又富含各类化信息

统共框架在NaturalQuestions、HotpotQA等5个数据集上仅需单次训练,即可膨胀问答、节录等多种长高低文任务。

实践出真知:高压缩率下的优胜性能与深远知悉

卑劣任务进展超卓

在32倍压缩不休下,COMI以Qwen2-7B为基座,在NaturalQuestions上竣事49.15的Exact Match(EM)分数,比次优基线进步近25个点。即使濒临32K超长文本(NarrativeQA),COMI仍能踏实保留推理链要害节点,施展其在顶点压缩场景下的鲁棒性。

压缩不是“删减”,而是“提纯”

COMI甚而能升迁原生援手256K高低文的Qwen3-4B性能。在NaturalQuestions上,32倍压缩后的COMI达到28.89的F1分数,远超径直输入完满高低文的16.90。这施展高质料压缩不仅是“减负”,更是通过排斥冗余侵扰竣事“信息提纯”,让模子更聚焦于中枢笔据。

{jz:field.toptypename/}

遵循与遵循兼得

在32倍压缩下,COMI竣事端到端推理速率2倍以上升迁,且压缩阶段仅引入轻量级支出(NarrativeQA任务中压缩耗时2.76秒,生成仅0.50秒),为工业级部署铺平谈路。

回来

COMI责任为长高低文高效推理提供了新范式:

它通过旯旮信息增益这一简易而深远的计算,将压缩观点从“保留相关片断”升级为“保留相关且各类化的信息”,从根底上破解了高压缩率下的性能瓶颈。粗到细的自顺应政策则确保了压缩经由既适应全局信息分散,又保留局部语义细节。

这项沟通施展,实在的高质料压缩不是浅近的“删减”——让每一比特齐承载各类化的信息价值,为大模子走向轻量化、实用化迈出要害一步。

论文标题:COMI: Coarse-to-fine Context Compression via Marginal Information Gain论文集会:https://arxiv.org/abs/2602.01719代码集会:https://github.com/Twilightaaa/COMI