獵豹移動傅盛：數(shù)據(jù)才是大模型競爭的真正壁壘

時間：2024-11-28 18:22 來源：證券之星閱讀量：5327

在AI大模型的激烈競爭中，算力資源和算法優(yōu)化一直是各大企業(yè)追逐的焦點。然而，隨著技術(shù)逐漸成熟，行業(yè)的焦點正在發(fā)生微妙的轉(zhuǎn)變——從單純的模型訓(xùn)練和算力投入，轉(zhuǎn)向了如何處理和利用海量、高質(zhì)量的數(shù)據(jù)。

事實上，數(shù)據(jù)已經(jīng)成為了大模型能否成功落地的決定性因素。11月27日，獵豹移動董事長兼CEO傅盛在接受21世紀(jì)經(jīng)濟(jì)報道記者采訪時明確指出:“算法和算力并不是大模型的核心競爭力，真正的壁壘是數(shù)據(jù)?！?/p>

傅盛提到，大多數(shù)大模型公司在算法上并沒有顯著的差異化。盡管芯片和算法依然關(guān)鍵，但它們的差距并不像數(shù)據(jù)那么深刻?！叭绻麛?shù)據(jù)沒有足夠的質(zhì)量和數(shù)量，任何算法和算力的優(yōu)勢都無法發(fā)揮作用?！?/p>

大模型的訓(xùn)練依賴大量標(biāo)注過的數(shù)據(jù)，這一過程直接決定了模型的實際效果。傅盛比喻說，模型就像一個正在成長的孩子，只有得到正確的信息，他才能正確學(xué)習(xí)。

數(shù)據(jù)面臨質(zhì)量和數(shù)量雙重挑戰(zhàn)

然而，在數(shù)據(jù)的獲取和利用方面，大模型的發(fā)展正面臨諸多挑戰(zhàn)。

首先是能用于大模型訓(xùn)練的真實數(shù)據(jù)正在枯竭。DeepMind在一篇論文中深入探討了Scaling問題，并得出結(jié)論:為充分訓(xùn)練一個模型，其token數(shù)量需要達(dá)到該模型參數(shù)量的20倍。

目前，已知閉源模型中訓(xùn)練token數(shù)最多的是GPT4，約為20T；開源模型中訓(xùn)練token數(shù)最多的是LLaMA3，約為15T。照此計算，如果一個5000億參數(shù)的Dense模型要達(dá)到相同的訓(xùn)練效果，則需要訓(xùn)練約token數(shù)為107T，而這已遠(yuǎn)超當(dāng)前業(yè)界擁有的數(shù)據(jù)量。

因此，使用合成數(shù)據(jù)已經(jīng)成為大模型的一個共識。有預(yù)測數(shù)據(jù)顯示，到2026年，自然數(shù)據(jù)將被大模型全部用完，而2030年，人工智能使用的合成數(shù)據(jù)將超過真實數(shù)據(jù)。

但傅盛認(rèn)為，直接使用合成數(shù)據(jù)訓(xùn)練大模型存在巨大風(fēng)險。由于合成數(shù)據(jù)本身不可避免地帶有系統(tǒng)性偏差，若直接將其用于訓(xùn)練，模型可能會錯誤地將這些偏差視為常規(guī)，長期下來，模型的認(rèn)知可能會出現(xiàn)致命缺陷。

所以合成數(shù)據(jù)也需要進(jìn)行一些處理，如人工調(diào)優(yōu)或者是用其他數(shù)據(jù)進(jìn)行增強，來提升合成數(shù)據(jù)質(zhì)量。

而針對真實數(shù)據(jù)，最顯著的問題是利用率不高。許多企業(yè)有足夠的數(shù)據(jù)，但是訓(xùn)練出的大模型效果總是不理想，原因也在于他們的數(shù)據(jù)質(zhì)量不夠高。

挖掘數(shù)據(jù)服務(wù)商機(jī)

基于此，獵豹移動也看到一個商機(jī)，其控股公司獵戶星空推出了全新的數(shù)據(jù)服務(wù)產(chǎn)品——AI數(shù)據(jù)寶AirDS。

AI數(shù)據(jù)寶AirDS提供的服務(wù)涵蓋數(shù)據(jù)收集、清洗、標(biāo)注、提示詞工程以及評估等環(huán)節(jié)。傅盛表示，因為獵豹移動自己也在訓(xùn)練大模型，所以相對于傳統(tǒng)的數(shù)據(jù)標(biāo)注公司，獵豹移動對大模型有更深刻的理解，也更能滿足企業(yè)對數(shù)據(jù)的需求。

需要指出的是，目前的數(shù)據(jù)服務(wù)依然離不開人工。在大模型時代，數(shù)據(jù)篩選、清理等環(huán)節(jié)，可以借助一些工具提高效率，但要想獲得高質(zhì)量數(shù)據(jù)，人工精細(xì)標(biāo)注仍是不可或缺的。

傅盛表示，在大模型時代，獵豹移動的核心業(yè)務(wù)模式并非通過模型接口來賺錢，而是通過幫助客戶實現(xiàn)AI應(yīng)用的落地來創(chuàng)造價值。

該業(yè)務(wù)模式的核心是圍繞大模型的應(yīng)用場景進(jìn)行深度挖掘。以AI數(shù)據(jù)寶為例，獵豹移動通過數(shù)據(jù)服務(wù)產(chǎn)品，幫助企業(yè)客戶實現(xiàn)從數(shù)據(jù)清洗到標(biāo)注、再到應(yīng)用優(yōu)化的全流程服務(wù)，這不僅大幅提升了企業(yè)的AI應(yīng)用效果，也為獵豹移動創(chuàng)造了巨大的商業(yè)化空間。

目前，AI數(shù)據(jù)寶的成功案例已經(jīng)覆蓋了多個行業(yè)，包括移動通信、互聯(lián)網(wǎng)娛樂、新能源汽車等。

對于大模型未來的發(fā)展，傅盛認(rèn)為，盡管技術(shù)瓶頸已使得模型的迭代速度放緩，但應(yīng)用場景的深度和廣度卻在不斷擴(kuò)展。特別是在搜索、企業(yè)服務(wù)等垂直行業(yè)，隨著數(shù)據(jù)質(zhì)量和應(yīng)用能力的提升，AI有望為行業(yè)帶來革命性的變革。

“明年將是應(yīng)用大繁榮的一年，”傅盛預(yù)測，“大模型的能力已經(jīng)相對穩(wěn)定，下一步的競爭將更多依賴于如何在特定場景中應(yīng)用大模型。只要場景足夠清晰，它的爆發(fā)力將非常強?！?/p>

聲明：免責(zé)聲明：此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊，僅代表作者個人觀點，與本網(wǎng)無關(guān)。僅供讀者參考，并請自行核實相關(guān)內(nèi)容。