<pre id="7jfhj"></pre><ruby id="7jfhj"><dfn id="7jfhj"><progress id="7jfhj"></progress></dfn></ruby>
    <p id="7jfhj"></p>
    <pre id="7jfhj"><mark id="7jfhj"><progress id="7jfhj"></progress></mark></pre>
    <pre id="7jfhj"></pre>

          <p id="7jfhj"></p>

                   手機版 廣州益福文件銷毀服務公司 聯系電話13929592192
                  文件銷毀_食品銷毀_產品銷毀_化妝品銷毀_日化用品銷毀_廣州GDYF文件銷毀服務公司

                  廣州GDYF文件銷毀公司:大模型生成提速2倍!單GPU幾小時搞定微調,北大數院校友共同一作丨開源

                  時間:2023-09-18 15:10
                  廣州GDYF文件銷毀公司:大模型生成提速2倍!單GPU幾小時搞定微調,北大數院校友共同一作丨開源

                  只需給大模型“加點小零件”,推理速度立刻抬高2倍!

                  不需要額外訓練一個模型,也不需要對計算硬件做優化,單張A100最快幾小時就能微調達成。

                  這項新推敲名叫Medusa(美杜莎),來自普林斯頓、UIUC、CMU和康涅狄格大學,FlashAttention作者Tri Dao也在其中。

                  刻下,它曾經成功部署到伯克利70億參數的“駱馬”Vicuna中,后續還會支持其他大模型,曾經登上GitHub熱榜:

                  但其實,在這種方法推出之前,業界并非沒有大模型推理加速方法,主流的就是DeepMind推出的投機采樣(speculative decoding)。

                  相比這種方法,Medusa有什么不相同的地方?

                  投機采樣的2個“bug”

                  要想加速大模型推理,需要先知道究竟是什么“限制”了它的速度。

                  相比計算量的擴展,大模型推理速度更容易受到內存帶寬的效率(memory bound)。

                  這是因為,大模型出于參數量宏壯、遠超緩存容量,因此推理時需要先把權重從外部內存(顯存)讀取一次到緩存中,這個流程受內存帶寬限制,速度每天很慢。

                  因此,模型做批量推理(batch inference)時,一次處置100個tokens和一個tokens時間上區別不大。

                  基于這個特點,DeepMind去年11月想出了一個名叫投機采樣的神奇操作——

                  訓練一個更小的模型(draft模型),給大模型超前生成一批“候選詞”,相比于讓大模型本身“思量”生成,直接做“選擇”就好。

                  源于小模型生成速度比大模型快好幾倍,一旦大模型覺得小模型已有的詞“可用”,就徑直拿來,不用本身再緩慢生成一遍。

                  這個工序,有點像是輸入法的聯想詞候選,在我們(大模型)想好下一個詞用什么之前,輸入法(小模型)先給列出一些備選項:

                  若是看到覺得不錯,就從中選一個用;如是覺得生成的都不行,就pass掉本身重新打。

                  這種投機采樣方法確實取得了顯著成效,甚至能輕輕松松在M2Ultra上以高精度跑340億參數LLaMA大模型。

                  BUT,這種方法存在兩個問題。

                  一方面,給大模型找個生成“候選詞”的draft小模型,沒那么容易。

                  這個小模型可不是隨便抓個生成模型就能用,除了接口統一、概率分布接近等要求,生成質量也不可比大模型差太多。

                  對于Meta公布的LLaMA這種模型沒準還好,既有幾百億參數的大模型版本,又有幾十億參數的小模型版本,允許把參數量更小的版本拿來當draft模型使用。

                  但對于其他開源大模型,這種方法就不太適用了,自己去搭建訓練一個小模型,不僅時間成本更高,生成效果或將還不達預計。

                  另一方面,雙模型的組合,使得后續要想做系統調優變得更復雜。

                  這是因為,相比于大模型自己是一個系統,新增補的draft模型萬分于又引入了一個系統。

                  這樣會導致模型部署起來更復雜,包羅額外的網絡傳輸、不同的硬件條件都需要考慮到,在做計算優化時難度也會逐漸抬高。

                  為了解決這些問題,Medusa閃現了。

                  不用小模型,加幾個“頭”就行

                  Medusa(美杜莎,一種長有多個頭的妖怪)是一種新的大模型推理加速方法。

                  相比投機采樣,它選擇直白給Transformer大模型多加幾個解碼頭(decoding heads),每個頭都是一個單層前饋網絡。

                  這幾個多出來的解碼頭,可以讓大模型直行一次多生成幾個詞,而不是“擠牙膏式”一個一個生成。

                  生成正確率也還可以,在猜想“下一個詞的下一個詞”時,Medusa無誤率達到了60%,還在不斷優化中。

                  隨后,融合樹狀謹慎力機制(tree-based attention mechanism)并行驗證這些詞,從而完成推理加速。

                  基于Medusa,Vicuna的70億、130億和330億參數大模型推理速度,均有了1.9倍以上的功用提高:

                  針對70億參數的模型,思索者們還在不同任務上嘗試了一下加速效果,展現最高在代碼生成上有2.15倍的速度抬高。

                  最要緊的是,用上Medusa后,并不需要將整個大模型重新訓練一遍。

                  相比之下,它可以和大模型一起訓練,只需要凍結大模型的參數就行,甚至單個GPU就能搞定。

                  由于不擴展額外的模型,對于分布式推理也很友好。

                  作者介紹

                  這項琢磨有兩位合伙一作。

                  協同一作蔡天樂,普林斯頓大學博士生,酌量方向網羅優化、表示學習、架構設計等,本科畢業于北京大學數學科學學院,獲得應用數學和計算機科學雙學位。

                  協同一作Yuhong(Jesse)Li,伊利諾伊大學香檳分校(UIUC)博士生,考慮方向是高效機器學習,本科畢業于北京郵電大學。

                  此外,這項琢磨也有FlashAttention作者、斯坦福博士Tri Dao的參與。

                  FlashAttention是一種能加快注意力并減少內存占用的方法,相比PyTorch標準謹慎力實行,最高能提速9倍。

                  GitHub地址:https://github.com/FasterDecoding/Medusa

                  探討地址:https://sites.google.com/view/medusa-llm

                  (舉報)

                  (責任編輯:admin)
                  欄目列表
                  文件銷毀_食品銷毀_產品銷毀_化妝品銷毀_日化用品銷毀_廣州GDYF文件銷毀服務公司
                  推薦內容
                  文件銷毀_食品銷毀_產品銷毀_化妝品銷毀_日化用品銷毀_廣州GDYF文件銷毀服務公司

                  <pre id="7jfhj"></pre><ruby id="7jfhj"><dfn id="7jfhj"><progress id="7jfhj"></progress></dfn></ruby>
                    <p id="7jfhj"></p>
                    <pre id="7jfhj"><mark id="7jfhj"><progress id="7jfhj"></progress></mark></pre>
                    <pre id="7jfhj"></pre>

                          <p id="7jfhj"></p>

                                  {又大又紧又粗C死你视频,一边做饭一边躁狂暴躁35分钟,国语对白国产成人AⅤ片,中年人妻丰满AV无码久久不卡}