美女视频俄罗斯美女,鞠婧祎舞蹈舞视频大全,美女视频在线观看网址大全

DeepSeek的“蒸餾模型”超越原創(chuàng)？美國(guó)要對(duì)“蒸餾技術(shù)”下手

2025-01-31 10:02:40

中國(guó)人工智能初創(chuàng)公司DeepSeek在過(guò)去一周成為硅谷熱議的對(duì)象，并觸發(fā)了本周一美國(guó)科技股“崩盤”。

1月29日，OpenAI最新稱，它發(fā)現(xiàn)有證據(jù)表明中國(guó)人工智能初創(chuàng)公司DeepSeek使用其專有模型來(lái)訓(xùn)練自己的開源模型，并暗示這可能違反了OpenAI的服務(wù)條款。但OpenAI沒(méi)有進(jìn)一步列舉哪些證據(jù)。OpenAI的服務(wù)條款規(guī)定，用戶不能“復(fù)制”其任何服務(wù)或“使用其輸出來(lái)開發(fā)與OpenAI競(jìng)爭(zhēng)的模型”。

一種“常見(jiàn)技術(shù)”引發(fā)爭(zhēng)議

與Meta的Llama開源模型可免費(fèi)使用不同，OpenAI的模型系統(tǒng)是封閉的，但個(gè)人用戶仍可付費(fèi)接入其編程接口（API）獲取數(shù)據(jù)。截至發(fā)稿，DeepSeek尚未予以回應(yīng)。

此前，美國(guó)政府稱正在組織專家緊急評(píng)估DeepSeek的技術(shù)及影響。美國(guó)白宮AI和加密貨幣事務(wù)負(fù)責(zé)人大衛(wèi)·薩克斯（David Sacks）表示，未來(lái)幾個(gè)月，美國(guó)領(lǐng)先的人工智能公司將采取措施，試圖防止其他公司對(duì)“蒸餾技術(shù)”的獲取。

DeepSeek模型取得的技術(shù)突破已經(jīng)引起美國(guó)總統(tǒng)特朗普的關(guān)注。特朗普周一表示，DeepSeek這款中國(guó)AI應(yīng)用程序應(yīng)該成為美國(guó)公司的“激勵(lì)因素”，他表示：“如果中國(guó)業(yè)界能夠開發(fā)出更便宜的人工智能技術(shù)，美國(guó)公司也會(huì)效仿。你不必花費(fèi)數(shù)十億美元，而是花更少的錢，希望找到相同的解決方案?！?/span>

數(shù)據(jù)蒸餾是一種業(yè)內(nèi)常見(jiàn)的技術(shù)做法，是指通過(guò)一系列算法和策略，將原始的、復(fù)雜的數(shù)據(jù)進(jìn)行去噪、降維、提煉等操作，從而得到更為精煉、有用的數(shù)據(jù)。數(shù)據(jù)蒸餾的目的是將復(fù)雜模型的知識(shí)提煉到簡(jiǎn)單模型。

據(jù)DeepSeek-V3的技術(shù)文檔，該模型使用數(shù)據(jù)蒸餾技術(shù)生成的高質(zhì)量數(shù)據(jù)提升了訓(xùn)練效率。通過(guò)已有的高質(zhì)量模型來(lái)合成少量高質(zhì)量數(shù)據(jù)，作為新模型的訓(xùn)練數(shù)據(jù)，從而達(dá)到接近于在原始數(shù)據(jù)上訓(xùn)練的效果。

“以前的大模型訓(xùn)練相當(dāng)于使用題海戰(zhàn)術(shù)，在大量的數(shù)據(jù)中訓(xùn)練。而蒸餾就相當(dāng)于讓在題海戰(zhàn)術(shù)里磨練過(guò)的優(yōu)秀大模型充當(dāng)新模型的老師，篩選出有效題目，再讓新的大模型訓(xùn)練。”一位計(jì)算機(jī)研究人員這樣解釋。

不過(guò)此前有學(xué)者認(rèn)為，蒸餾技術(shù)存在“隱性天花板”，它雖然可以提高模型訓(xùn)練效率，但借此開發(fā)的模型無(wú)法超越基礎(chǔ)模型的能力，當(dāng)考慮到需要將能力擴(kuò)展到新領(lǐng)域或應(yīng)對(duì)以前從未見(jiàn)過(guò)的挑戰(zhàn)時(shí)，這種限制就愈發(fā)成為問(wèn)題；而且這種技術(shù)在多模態(tài)數(shù)據(jù)方面效果不好。

而DeepSeek的模型從某種程度上打破了這種業(yè)內(nèi)普遍存在的觀念，其大模型的水平已經(jīng)能與原始的基礎(chǔ)模型相提并論。這是引發(fā)美國(guó)擔(dān)憂的根本原因之一。就在1月28日凌晨，DeepSeek發(fā)布了最新視覺(jué)模型Janus-Pro，在多模態(tài)理解和文生圖指令遵從能力都收獲了顯著提升，并在多個(gè)基準(zhǔn)上超越了DALL-E 3與Stable Diffusion。

英國(guó)倫敦大學(xué)學(xué)院（UCL）名譽(yù)教授和計(jì)算機(jī)科學(xué)家彼得·本特利曾在接受采訪時(shí)稱：“蒸餾技術(shù)對(duì)一些不具備OpenAI或谷歌這樣巨額研發(fā)預(yù)算的小型機(jī)構(gòu)的研究進(jìn)展將會(huì)產(chǎn)生重大影響?！?/span>

“蒸餾模型”何以超越原創(chuàng)？

一位美國(guó)科技巨頭公司AI相關(guān)項(xiàng)目開發(fā)人員對(duì)第一財(cái)經(jīng)記者表示：“我并不認(rèn)為蒸餾類似Llama這樣的開源模型有什么問(wèn)題，尤其是像DeepSeek這樣在蒸餾后采取開源的模型，其實(shí)是有存在的合理性的，這樣能加速大模型的迭代，沒(méi)有必要所有的公司都從頭開始訓(xùn)練大模型，這會(huì)導(dǎo)致資源的浪費(fèi)?！?/span>

他還表示，全球很多AI初創(chuàng)公司也同樣使用多種大模型的蒸餾融合技術(shù)，形成了所謂的“多專家模型”（MoE），這樣的蒸餾模型是有可能在性能方面超越原始模型的，因?yàn)樗懈鼜?qiáng)的泛化能力，得到的信息更加豐富，提升最終性能。

“這就好比你有一個(gè)團(tuán)隊(duì)，里面有本科生、研究生、博士生、工業(yè)界初級(jí)工程師、資深工程師，當(dāng)你遇到問(wèn)題時(shí)，可以把不同難度的任務(wù)分派給不同的’專家’。這樣會(huì)以最高效的方式給出最匹配的答案。”他解釋道。

上述人士分析稱，關(guān)鍵的核心問(wèn)題不在于DeepSeek蒸餾了其他大模型，而是為何同樣是在蒸餾開源模型的基礎(chǔ)上，DeepSeek能夠脫穎而出，以如此低廉的成本價(jià)格就能實(shí)現(xiàn)如此高的性能，并不是所有的公司投入這些資源后都能夠?qū)崿F(xiàn)的。

他認(rèn)為，DeepSeek完美平衡了多專家模型、訓(xùn)練時(shí)長(zhǎng)，預(yù)訓(xùn)練、后訓(xùn)練等工作，使得投入和產(chǎn)出達(dá)到一個(gè)最高效的值?！爱?dāng)你做得好到對(duì)別人有威脅了，總會(huì)有一些官司找上門?！彼硎尽?/span>

但也有AI研究人員指出，過(guò)度依賴蒸餾技術(shù)的“捷徑”，會(huì)導(dǎo)致研發(fā)人員為了快速取得成果而放棄對(duì)基礎(chǔ)模型的探索。上海交通大學(xué)副教授劉鵬飛曾在一篇學(xué)術(shù)報(bào)告中提到：“蒸餾技術(shù)為在數(shù)學(xué)推理任務(wù)中取得顯著性能提升提供了一條誘人的捷徑。雖然這種方法帶來(lái)了直接且可見(jiàn)的好處，但它掩蓋了一系列深刻的挑戰(zhàn)，無(wú)法提出根本性的解決方案。”

(本文來(lái)自第一財(cái)經(jīng))

轉(zhuǎn)載請(qǐng)標(biāo)注來(lái)源158機(jī)床網(wǎng)

久久国产乱子,九九九九在线精品免费视频,日本福利一区,亚洲理论a中文字幕在线,欧美美女视频图片,杨幂最新视频,朝国美女视频