日韩在线不卡免费视频一区,日韩欧美精品一区二区三区经典,日产精品码2码三码四码区,人妻无码一区二区三区免费,日本feerbbwdh少妇丰满

徐土豆
認(rèn)證:優(yōu)質(zhì)創(chuàng)作者
作者動(dòng)態(tài)
給定計(jì)算預(yù)算下的最佳LLM模型尺寸與預(yù)訓(xùn)練數(shù)據(jù)量分配
05-19 09:33
大模型推理時(shí)的尺度擴(kuò)展定律
05-18 10:32
世界多胞體與世界模型
05-13 09:42
獎(jiǎng)勵(lì)模型中的尺度擴(kuò)展定律和獎(jiǎng)勵(lì)劫持
05-12 08:41
MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果
05-08 09:13

MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果

Danqi Chen 在最新提交在Arxiv上的文章 [1] MeCO指出,如Fig 1所示,只需要在預(yù)訓(xùn)練數(shù)據(jù)的起始位置加上一個(gè)來(lái)源信息(URL),然后在最后10%的預(yù)訓(xùn)練中除去這個(gè)URL信息進(jìn)行常規(guī)的預(yù)訓(xùn)練,這么一個(gè)簡(jiǎn)單的操作,對(duì)比常規(guī)的預(yù)訓(xùn)練過(guò)程就能獲得下游任務(wù)的性能提升,并且訓(xùn)練加速33%。

Fig 1. 對(duì)于標(biāo)準(zhǔn)的預(yù)訓(xùn)練流程,只需要在預(yù)訓(xùn)練數(shù)據(jù)中加入該條數(shù)據(jù)對(duì)應(yīng)的URL信息,然后在最后10%的訓(xùn)練中『冷卻』,就能取得下游業(yè)務(wù)的性能收益,并且訓(xùn)練加速33%。

作者通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),這個(gè)提升能夠穩(wěn)定地在多個(gè)尺寸的LLM(600M、1.6B、3B、8B)中保持,有理由相信是一個(gè)普適的方法。整個(gè)方法也很簡(jiǎn)單,分為兩個(gè)階段:

  1. 在預(yù)訓(xùn)練前面的90%的訓(xùn)練過(guò)程中,在所有預(yù)訓(xùn)練數(shù)據(jù)中,在其起始處拼接上URL:xxxx \n\n的模板,其中的xxxx被稱之為源信息(source infomation),是具體表示該數(shù)據(jù)來(lái)自于哪個(gè)URL的信息,可以是原始的URL,比如en.wikipedia.org,也可以是URL hash,甚至可以是第三方模型對(duì)該數(shù)據(jù)的分類信息, 后面的消融實(shí)驗(yàn)中驗(yàn)證不同源信息方式的效果。注意,在loss計(jì)算過(guò)程中,只計(jì)算原始的文檔token的損失,而對(duì)新增的源信息進(jìn)行掩膜。
  2. 為了讓預(yù)訓(xùn)練模型能在不帶有源信息的情況下使用,在最后訓(xùn)練量的10%中,作者將源信息去掉,然后進(jìn)行常規(guī)的預(yù)訓(xùn)練操作,這個(gè)過(guò)程被稱之為『冷卻』(cooldown)。

作者做了一些試驗(yàn)驗(yàn)證該方法的有效性,為了充分驗(yàn)證,作者選取了10個(gè)下游任務(wù)數(shù)據(jù)集,如Fig 2所示,MeCo表示本文提出的方法,采用了160B的token訓(xùn)練量(比起Standard的240B的訓(xùn)練量,減少了33%),其中Standard表示采用DCLM預(yù)訓(xùn)練數(shù)據(jù)集的常規(guī)預(yù)訓(xùn)練過(guò)程,+Data sel表示采用了數(shù)據(jù)篩選方法(采用fastText文本分類器進(jìn)行文本質(zhì)量過(guò)濾,只選取前70%的樣本,保留約160B的token),而+80B tokens表示對(duì)齊Standard的訓(xùn)練量,也就是在做了數(shù)據(jù)篩選的前提下進(jìn)行繼續(xù)訓(xùn)練,補(bǔ)齊訓(xùn)練量(筆者注:我個(gè)人的理解,文章里面并沒(méi)有描述的很清楚)。

從結(jié)果來(lái)看,如果從預(yù)訓(xùn)練本身的維度,觀察困惑度(PPL)指標(biāo),那么+80B tokens的效果是最好的,但是有趣的是,困惑度指標(biāo)和下游任務(wù)指標(biāo)并不是強(qiáng)相關(guān)的,這個(gè)從采用Standard+Data sel的對(duì)比上也能看出來(lái)。在下游任務(wù)中,表現(xiàn)最好的是本文提出的MeCo方法,平均獲得了1個(gè)點(diǎn)的提升,而且對(duì)比基線采用的240B的訓(xùn)練量,只需要160B的訓(xùn)練量,節(jié)省了33%的訓(xùn)練成本。

Fig 2. 作者對(duì)在DCLM的160B個(gè)token上預(yù)訓(xùn)練一個(gè)1.6B參數(shù)量的語(yǔ)言模型的主要實(shí)驗(yàn)結(jié)果。MeCo顯著優(yōu)于標(biāo)準(zhǔn)預(yù)訓(xùn)練,并且在使用數(shù)據(jù)量少33%的情況下,達(dá)到了與240B token基線相當(dāng)?shù)钠骄阅?。有趣的是,?yàn)證困惑度(PPL)與下游性能并不相關(guān)。

數(shù)據(jù)Scaling試驗(yàn)

我們?cè)倏吹紽ig 3, 具體看到對(duì)比標(biāo)準(zhǔn)預(yù)訓(xùn)練方式和MeCo方式,訓(xùn)練量和各個(gè)數(shù)據(jù)集下游表現(xiàn)(作者只挑了表現(xiàn)正向的數(shù)據(jù)集),能看出是隨著訓(xùn)練量的提升,下游效果也是持續(xù)提升的,且MeCo的性能持續(xù)優(yōu)于標(biāo)準(zhǔn)方法,這個(gè)證實(shí)了這個(gè)方法的穩(wěn)定性,即是不依賴與特定的訓(xùn)練量后才能發(fā)揮效果,而是持續(xù)生效。

Fig 3. MeCo在DCLM上的1.6B參數(shù)模型訓(xùn)練過(guò)程中下游任務(wù)性能表現(xiàn)如下。MeCo的每個(gè)checkpoint在末尾都包含了一個(gè)使用16B token訓(xùn)練的冷卻階段。為了公平比較,基線和相應(yīng)的MeCo checkpoint所使用的總token數(shù)是相同的。

模型Scaling試驗(yàn)

作者還對(duì)比了不同尺度模型的表現(xiàn),如Fig 4.所示,從結(jié)果中能發(fā)現(xiàn)在不同尺度的模型(600M、1.6B、3B、8B)上,MeCo這種訓(xùn)練方式均提供了一致的正收益趨勢(shì)。

Fig 4. MeCo在不同模型規(guī)模下的結(jié)果(除8B模型外,其他模型均在DCLM的160B token上訓(xùn)練,8B模型由于資源限制在80B token上訓(xùn)練)。

由于以上的試驗(yàn)均采用的是DCLM這個(gè)預(yù)訓(xùn)練語(yǔ)料,為了探究MeCo是否在其他語(yǔ)料上也能同樣生效,如圖Fig 5所示,作者在C4、RefinedWeb上補(bǔ)充了這個(gè)試驗(yàn),同樣都能發(fā)現(xiàn)MeCo帶來(lái)的下游任務(wù)的收益。

Fig 5. 在不同預(yù)訓(xùn)練語(yǔ)料庫(kù)上應(yīng)用MeCo的結(jié)果(1.6B參數(shù)模型,160B token),MeCo在不同預(yù)訓(xùn)練來(lái)源上均提供了一致趨勢(shì)的收益。

有趣的是,采用了MeCo與訓(xùn)練后,模型還具有所謂“條件推理”(conditional inference)的能力,如Fig 6所示,只需要在特定的任務(wù)下,添加一個(gè)適當(dāng)?shù)腢RL前綴(這個(gè)URL并不需要是一個(gè)真實(shí)的URL,只需要在語(yǔ)義上能提供一些問(wèn)題的分類或者需求信息),就能提升下游任務(wù)的效果。如Fig 7所示,一個(gè)合適的URL能帶來(lái)大幅度的下游任務(wù)提升,但是一個(gè)不合適的url,則會(huì)帶來(lái)大幅度的性能折損,筆者理解,從某種意義上說(shuō),這是一種meta prompt,對(duì)整個(gè)prompt的調(diào)性和類別、需求等進(jìn)行了約束。

Fig 6. 條件推理的示例:我們可以通過(guò)在提示前添加一個(gè)URL來(lái)對(duì)模型進(jìn)行條件設(shè)置。這個(gè)URL不需要是一個(gè)真實(shí)的網(wǎng)址。

Fig 7. MeCo(1.6B參數(shù),160B DCLM token)的零樣本評(píng)估,使用不同URL展示了無(wú)條件推理與使用URL之間的差異。

作者還做了消融試驗(yàn)去探討URL前綴的選擇方式,如Fig 8所示,最后發(fā)現(xiàn)采用URL是最合適的,采用Full URL會(huì)帶來(lái)輸入長(zhǎng)度的增長(zhǎng),效果沒(méi)有明顯變化,而采用了hash的URL則是性能持平(不過(guò)如果采用hash的話,條件推理的能力應(yīng)該就沒(méi)有了)。

Fig 8. 對(duì)MeCo使用不同元數(shù)據(jù)的消融實(shí)驗(yàn)。平均結(jié)果涵蓋了所有10個(gè)任務(wù)。

筆者看下來(lái),整篇文章的方法是很簡(jiǎn)單的,主要是做了很多試驗(yàn)去證實(shí)這個(gè)方法的有效性。從方法本身去看,也從某種意義上說(shuō)明了對(duì)預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行某種標(biāo)簽體系分類的重要性,當(dāng)然之前很多工作可能會(huì)嘗試顯式地進(jìn)行數(shù)據(jù)打標(biāo)簽,并且通過(guò)數(shù)據(jù)配比的方式去影響預(yù)訓(xùn)練,而本文是一種隱式的方式去增加數(shù)據(jù)的類別信息,也即是增加一個(gè)來(lái)源信息,嘗試讓模型自己發(fā)現(xiàn)某些來(lái)源(比如維基百科)的信息可能更為靠譜。這里作者還舉了一個(gè)例子,這說(shuō)明了對(duì)于同一個(gè)主體Tim Cook,不同來(lái)源的數(shù)據(jù)差別很大,有些可能是非嚴(yán)肅的梗圖,有些可能是新聞信息,如果混淆在一起進(jìn)行預(yù)訓(xùn)練,會(huì)對(duì)下游業(yè)務(wù)帶來(lái)困擾(比如下游模型可能會(huì)迷惑Tim Cook到底是不是會(huì)做飯)。從這個(gè)角度去思考,這個(gè)方法就是非常合理的,因?yàn)閬?lái)自不同站點(diǎn)的信息調(diào)性會(huì)有很大差別,作為一種元信息,有必要作為預(yù)訓(xùn)練輸入的一部分參與訓(xùn)練。

例如,關(guān)于蘋(píng)果公司首席執(zhí)行官蒂姆·庫(kù)克的網(wǎng)絡(luò)文檔,從表情包“蒂姆不再做飯了(Tim doesn’t cook anymore )” 到傳記“蒂姆·庫(kù)克是蘋(píng)果公司的首席執(zhí)行官”(Tim Cook is the CEO of Apple )都有。

Reference

[1]. Gao, Tianyu, Alexander Wettig, Luxi He, Yihe Dong, Sadhika Malladi, and Danqi Chen. "Metadata Conditioning Accelerates Language Model Pre-training." arXiv preprint arXiv:2501.01956 (2025). Aka MeCO

聲明:本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電子星球立場(chǎng)。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴,請(qǐng)聯(lián)系:editor@netbroad.com
覺(jué)得內(nèi)容不錯(cuò)的朋友,別忘了一鍵三連哦!
贊 1
收藏 2
關(guān)注 52
成為作者 賺取收益
全部留言
0/200
成為第一個(gè)和作者交流的人吧