|
这项由浙江大学、新南威尔士大学(UNSW)、Data61/CSIRO和百度结伴完成的讨论,以预印本步地发布于2026年6月9日,论文编号为arXiv:2606.10671,题为《FadeMem: Distance-Aware Memory Consolidation for Autoregressive Video Diffusion》。感意思意思的读者可通过该编号在arXiv平台查阅圆善论文。 若是你也曾用AI器具生成过一段视频,你约略会夺目到一个令东说念主理狂的问题:视频开头出现的那只猫,没过几秒钟就暗暗变了个相貌,豪情变了,耳朵体式变了,致使在某些片断里平直灭亡了。这不是AI在"阐述创意",而是一个深层的技巧残障——AI在生成后续画面时,依然"健忘"了最运转画的那只猫长什么样。 这个问题在生成短视频时还拼集不错接受,但当咱们想让AI生成一分钟乃至更长的视频时,这种"失忆症"就形成了灾荒性的隐患。这恰是浙大团队试图处罚的中枢问题,他们的处罚决策叫作念FadeMem,一个让AI领有"分层牵记"的机制,而这套机制的灵感来源,正巧和东说念主类大脑处理牵记的模式惊东说念主地相似。 一、为什么AI生成长视频时会"失忆" 要补助这个问题,先来望望当代AI视频生成器是若何责任的。目下开头进的视频生成AI并不是连气儿把整段视频王人"想好"再输出,而是像讲故事一样一段一段地生成,每生成一小段新内容时,王人要回头望望之前依然生成了什么,以此保持连贯性。这种模式叫作念"自回来生成",不错类比为一个东说念主在努力写演义——每位接棒的作家王人要先读一读前边的章节,才能保证故事不跑偏。 在技巧层面,这种"回头看"的操作是通过一个叫作念KV缓存的机制完结的。K代表Key(键),V代表Value(值),你不错把它补助成一册储存以前画面"印象摘抄"的记事本。每生成一帧新画面,AI王人会往这本记事本里翻一翻,证实主角的脸型、场景的颜色、辅导的标的,然后再画下一帧。 问题在于,跟着视频越来越长,这本记事本会变得越来越厚。存储和查阅的资本呈线性增长,很快就会超出蓄意机的处理才能。这就像让一个东说念主在写第100章演义时,免强他把前99章全部倒背如流——任何东说念主王人会崩溃。 现存的处罚决策大要分为三类。第一类是"滑动窗口":只记取最近几帧,更远的全部丢弃,十分于那位接棒作家只读临了一页就运转写;第二类是"保留开头":永恒保留最运转几帧四肢"锚点",防患主角举座跑偏;第三类是"压缩牵记":把辽远的历史帧压缩成几个要道词式的摘抄情状,塞进缓存里。这些方法各有侧重,但王人存在一个根人道的局限:它们对牵记的处理模式是固定的、机械的,不会凭据内容距离现时时刻的遐迩来无邪革新牵记的良好进程。 二、东说念主类的渐忘弧线给了讨论者一个要道启发 在入部下手瞎想处罚决策之前,浙大团队先作念了一件很有敬爱的事:他们系统分析了长视频中帧与帧之间的有关性是如何随时辰衰减的。 具体来说,他们把每一帧视频编码成一个抽象的数学暗意,然后把这个暗意理解成不同的"频率要素"。低频要素对应画面中大规模的举座信息,比如场景的举座布局、主角的轮廓体式、画面的举座颜色;高频要素则对应细节信息,比如毛发的纹理、衣着上的褶皱、水面的微小震动。 分析落幕表露地揭示了一个方法:帧与帧之间的有关性会随时辰距离增大而下落,但下落速率在不同频率要素之间存在显耀各异。高频细节衰减得极快,两帧之间只须隔了一段时辰,细节上的有关性就依然聊胜于无;而低频的举座结构衰减得很慢,即即是相隔很远的帧,在场景布局和主角身份这类大轮廓信息上,仍然保有十分进程的有关性。 更有敬爱的是,讨论团队进一步分析了"厚实频率半径"随时辰距离的变化趋势——也就是说,在某个给定的时辰距离下,哪些频率要素仍然保持厚实有关。落幕发现,这个厚实频率半径随时辰距离增大而舒缓,何况舒缓的模式大要除名一个幂律沟通,用公式暗意就是r*(t) ∝ t^(-b),其中b是一个遗弃衰减慢度的参数。 这个发现和东说念主类牵记中著名的渐忘弧线不谋而合。咱们对昨天发生的事情难忘很明晰,包括细节;对一年前某天发生的事情,细节依然肮脏,但大事件的轮廓还在;对十年前的牵记,大多只剩下要道节点和举座印象。不同的是,东说念主脑的渐忘是被迫发生的,而FadeMem要作念的是主动治理这种分层渐忘——把有限的牵记空间,按照"越近越细、越远越粗"的原则合理分拨。 由此得出的瞎想形而上学十分直不雅:既然远方的历史帧只需要保留粗粒度的结构信息,那咱们就没必要为它们保留圆善的良好纪录;而近处的历史帧对现时生成至关进攻,需要保留尽可能丰富的细节。这个原则,就是FadeMem全部瞎想的起点。 三、FadeMem是如何组织这本"牵记账本"的 FadeMem的中枢想路不错用一个藏书楼的比方来补助。假定一个藏书楼的书架空间是固定的(对应固定的缓存预算M),需要存放不断涌入的新书(对应每个时刻重生成的视频帧的KV数据)。对于刚入库的新书,治理员给每本书单独分拨一个书架格子,保留圆善内容;而对于入库已久的古书,治理员会把内容周边的几本书合并成一册精华摘抄,腾出版架空间给新书。通盘书架上的内容,从右侧(最近入库)到左侧(最早入库)呈现出从"良好"到"简略"的梯度变化。 在技巧完结上,FadeMem把缓存中的每一条牵记称为一个"要求"。每个要求不仅存储了KV数据本人,还捎带两个轻量级的元数据:一个是这个要求所代表的时辰位置(用μ暗意),另一个是这个要求所有遮蔽了若干个生成单位(用s暗意)。新插入的要求s=1,意味着它代表一个精准的历史时刻;经过合并的要求s会增大,意味着它是对一段历史区间的综合摘抄。 每当AI生成了新的一帧或一组帧,FadeMem最初把对应的KV数据四肢新要求追加进来。此时若是要求总额越过了预设的上限M(论文默许使用12个历史要求),FadeMem就会触发一次合并操作,为下一轮生成腾出空间。 合并操作的采取计谋是通盘机制的精髓地方:FadeMem不是立时合并,也不是浅易地丢弃最旧的阿谁,而是通过一个幂律变换来臆测相邻要求之间的"感知距离",然后合并感知距离最小的那一双相邻要求。 具体来说,对于每个要求,先蓄意它离现时生成时刻的实践时辰距离d,然后把这个距离作念一个幂律变换:u(d) = d^β,其中β是一个介于0到1之间的遗弃参数。这个变换把时辰轴"歪曲"了——在歪曲后的空间里,近处的要求之间显得间距很大(窒碍易被合并),远方的要求之间显得间距很小(容易被合并)。算法采取在歪曲后空间里间距最小的那对相邻要求进行合并,当但是然地就完结了"优先合并辽远的历史、保留近处历史的良好度"这一主意。 两个要求合并时,生成的新要求的时辰位置μ_new取两者时辰位置的跨度加权平均,新要求的KV数据也取两者KV数据的跨度加权平均。跨度s_new等于两者跨度之和,纪录这个摘抄要求遮蔽的历史长度。通盘合并历程是在线进行的,每一步生成只需作念一次合并操作,蓄意资本极低。 2026世界杯赛事竞猜中国官网此外,FadeMem还诞生了两个范畴保护规则:最重生成的要求不会被立即合并,确保最崭新的历史信息至少存活一个生成设施;最早生成的第一帧要求默许受到保护,四肢"全局锚点"永恒留在缓存里,防患视频的举座身份和场景在漫长的生成历程中全王人漂移。这两条文矩并不需要额外的机制,博亚体育app官网下载它们王人在澌灭个有序的牵记结构里当然完结。 对于使用旋转位置编码(RoPE)的模子,FadeMem还作念了罕见处理:存储时先去掉KV数据中已编码的位置信息,使用时再凭据要求的代表时辰位置再行编码。这么作念是因为若是把两个不同时期位置的KV数据平直平均,位置信息会彼此搅扰产生辽阔;解耦存储和位置编码则保证了合并后的要求在被模子使用时仍然具有正确的时序信息。 四、实验落幕:FadeMem的确让视频"记性更好"了吗 讨论团队在Wan2.1-T2V-1.3B这个视频生成模子上完结了FadeMem,并在LongLive自回来视频生成框架上进行评测。评测任务是生成60秒长度的视频,分辨率480×832,帧率16FPS,使用MovieGenBench基准测试荟萃的128个教导词。评测方针继承VBench-Long体系,涵盖主体一致性、配景一致性、辅导畅达度、动态进程、好意思学质料和画质六个维度,并额外使用谷歌Gemini 3.1-Pro大模子进行视觉厚实性的主不雅评分。 讨论团队论述了两个变体。FadeMem-TF是纯推理时版块,不需要对模子作念任何额外试验,平直替换原有的缓存治理模式。FadeMem-FT则在FadeMem-TF的基础上进行了轻量级微调,让模子在试验阶段就俗例了分层牵记的探询模式。 在系数基线方法中,Self Forcing的举座平平分为78.64,LongLive为80.55,MemFlow为80.59,Deep Forcing为79.44,MemRoPE为80.39。FadeMem-TF在不进行任何额外试验的情况下达到了80.45的平平分,在主体一致性(97.74)、配景一致性(96.43)和辅导畅达度(98.93)三项方针上达到或并排现时最优水平。加入轻量微调后,FadeMem-FT的平平分进一步普及至81.03,在主体一致性(97.77)、配景一致性(96.56)、画质(70.72)和总体平均四项方针上均居系数方法之首。 在Gemini 3.1-Pro的主不雅视觉厚实性评分上,FadeMem不异以4.84的得分高于MemRoPE的4.80、MemFlow的4.77、LongLive的4.74和Deep Forcing的4.51,得到系数方法中的最高厚实性分数。 定性对比的落幕也十分直不雅。讨论团队使用了一个非常瞎想的挑战性教导词:"一起闪电击中湖中央的一只乌龟,把它坐窝形成了一只鳄鱼。"这个教导词的难度在于,主体的外不雅在视频早期就发生了一次根人道的变化,后续漫长的生成历程需要一直记取"当今它是鳄鱼,不是乌龟"这个已建造的事实。 在LongLive和MemFlow生成的视频中,跟着视频参加40秒、50秒阶段,乌龟的特征运转再行出当今主体身上,变身的后果冉冉被"遮蔽"。在Deep Forcing和MemRoPE生成的视频中,鳄鱼的举座身份得到看护,但细节冉冉肮脏。FadeMem生成的版块则在通盘60秒内不时看护了变死后的鳄鱼身份,同期在水面反光、风暴场景的举座氛围等细节上也保持了更高的一致性和实在感。 五、细节决定成败:三个瞎想采取的消融实验 为了考据FadeMem中每个瞎想采取的价值,讨论团队进行了系统性的消融实验,逐个测试不同的幂律指数β、不同的合并算子以及是否保留第一帧全局锚点的后果。 对于幂律指数β,讨论团队测试了从0.1到0.9五个取值。跟着β增大,动态进程和举座平平分有所普及,但主体一致性和配景一致性有所下落。β=0.9时举座加权平均最高(80.65),但在定性不雅察中发现视觉轨迹的厚实性和身份保留后果更差,评释自动方针并未全王人捕捉到视频质料的系数维度。讨论团队综合考量后采取β=0.3四肢默许值,因为它在主体一致性和配景厚实性上的进展最优,最稳当"生成长视频时保持身份和场景厚实"的中枢主意。 对于合并算子,讨论团队相比了四种模式:采取距离最近的单个要求(Select Nearest,即丢弃另一个)、浅易等权平均(Average)、跨度加权平均(Weighted Average)以及逐元素最大值(Max Pooling)。Max Pooling的进展最差,动态进程仅有10.47,画质也严重下落,评释对KV数据作念逐元素取最大值会严重轻松信号结构。Select Nearest在主体一致性上略占优,但动态进程和画质昭着低于平均类方法,评释平直丢弃一个历史要求会吃亏灵验的历史信息。浅易平均和加权平均进展接近,加权平均以微细上风胜出,因此四肢默许采取。 对于第一帧全局锚点,去掉它之后,主体一致性(98.01)和配景一致性(96.74)以及辅导畅达度(99.01)反而略有普及,但动态进程从39.09骤降至28.88。这评释,莫得第一帧锚点时模子生成的视频在辅导上变得过于保守,动态变化减少——模子为了看护一致性,干脆减少了动态内容。保留第一帧锚点在提供全局参照的同期,也为模子提供了生成丰富辅导内容的"底气",两者之间得到了更好的均衡。 说到底,FadeMem作念的事情其实不错用一句话详细:按照"越旧越详细,越新越良好"的原则,在固定大小的牵记账本里,把有限的牵记空间分拨给最值得良好牵记的内容。这个想路既有严实的表面依据(视经常率有关性的幂律衰减),又有纯粹的工程完结(单一有序的合并机制),不需要为"近期牵记"和"远期牵记"鉴别保养两套安适的系统,也不需要修改模子架构。 这对无为用户而言意味着什么?当你用AI生成一分钟的视频,要求主角在开头作念出某个动作或外貌变化,并但愿这个变化在视频收尾仍然表露可辨时,FadeMem这类机制让这件事在蓄意资源固定的条件下变得愈加可靠。诚然,这项讨论也坦诚地指出了自身的局限:FadeMem的牵记分拨计谋是预设固定的,对于包含片刻场景切换或高速辅导的视频,固定的幂律分拨可能并不是最优决策,将来不错探索内容自顺应的动态分拨计谋。此外,FadeMem处理的是缓存的组织模式,无法弥补底层生成模子本人在语义补助或物理学问上的先天不及。 归根结底,长视频生成的连贯性问题不仅仅"存若干历史"的问题,更是"如何存历史"的问题。FadeMem给出的这个谜底——用衰减式的分辨率梯度治理有限的牵记空间——为这个标的提供了一个值得不绝深刻探索的想路。有益思意思深刻讨论这一课题的读者,不错通过arXiv编号2606.10671查阅圆善论文和技巧细节。 Q&A Q1:FadeMem和无为滑动窗口缓存有什么实践区别? A:无为滑动窗口只保留最近几帧,更早的全部丢弃,十分于牵记里只好昨天,前天以前一律抹去。FadeMem则是把辽远的历史"压缩"而非"删除",辽远的帧会被合并成简略的摘抄要求,仍然占据缓存里的一个席位,仅仅良好进程裁减了。这么AI既能记取最近帧的细节,也能保留很早之前建造的主体身份和场景信息,两者王人不全王人丢失。 Q2:FadeMem需要再行试验视频生成模子吗? A:不需要再行试验也能使用。论文提供了两个版块,FadeMem-TF是纯推理时版块,平直替换原有的缓存治理计谋,不作念任何模子试验;FadeMem-FT则是在此基础上作念了轻量级微调,让模子更好地顺应分层牵记的探询模式,后果略优于纯推理版块。对于已有的视频生成系统,只需替换缓存治理模块即可使用,无需修改模子架构。 Q3:幂律指数β诞生若干相比合适,无为用户能我方调吗? A:论文推选默许使用β=0.3,这个值在身份一致性和配景厚实性上进展最佳,最恰当需要历久保持主体外不雅和场景连贯的专揽场景。β越大,对远方历史的压缩越弱,动格调略有普及但厚实性下落;β越小,近处牵记保留越密集,远方历史被更激进地合并。若是生成的视频场景变化多、动作幅度大博亚体育app官网下载,不错稳当尝试更高的β值。 |



备案号: