焦點關注:大模型進化加速,高質量數(shù)據(jù)成稀缺性來源 | 見智研究
大模型密集發(fā)布期,高質量的數(shù)據(jù)資源才是推動GPT進化的重要高手。
4月10日,商湯發(fā)布日日新大模型,及其衍生產(chǎn)品:商量(自然語言)、秒畫(文生圖)、如影(數(shù)字人)、空間3D大模型(瓊宇、格物),大模型涵蓋文本和圖像生成,計劃23年開啟萬億參數(shù)大規(guī)模大模型訓練,也是多模態(tài)大模型。
【資料圖】
此外,在日日新大模型平臺下,還有一個"商量"語言發(fā)模型sensechat,可以用在法律、編程以及醫(yī)學診斷的專業(yè)場景之下。以編程為例,生成代碼的一次通過率達到40.2%,已經(jīng)超過了Github Copilot。
華爾街見聞·見智研究認為:對于大模型訓練來說,能否未來得到優(yōu)質的大模型,與投入的數(shù)據(jù)質量非常關鍵,包括通用參數(shù)、文本語言、圖像、視頻音頻等等,投入數(shù)據(jù)的質量高低,會直接影響模型最終生成的內(nèi)容。
日日新大模型的亮點包括:
NLP大模型【商量】:擁有1800億參數(shù),類比ChatGPT。支持長文本理解(支持上傳PDF,并可與PDF對話)、輔助編程、手寫OCR等功能,并現(xiàn)場演示在線問診等應用。
文生圖大模型【秒畫】:模型擁有超過10億參數(shù),類比midjourney。可輔助提供提示詞,并生成符合描述的圖片,支持6k高清圖像,并可隨時調整畫風。
數(shù)字人大模型【如影】:可根據(jù)5min視頻創(chuàng)作屬于自己的數(shù)字人,并進行AI換裝、文案生成,可用于直播、視頻生成等場景。
空間3D大模型【瓊宇、格物】:瓊宇使得3D場景實時可交互/編輯,應用涉及數(shù)字孿生、建筑設計、影視創(chuàng)作、文旅和電商等。格物使得人/物/場便捷編輯創(chuàng)作,可用于家裝、商業(yè)廣告、文旅等場景。
評判大模型是否是一個好的大模型,最關鍵的還是源于投入模型的數(shù)據(jù)質量,只有高質量的數(shù)據(jù)才能夠讓大模型訓練出高質量的內(nèi)容。(大模型的計算量=參數(shù)量*處理的數(shù)據(jù)量)
模型迭代和數(shù)據(jù)篩選同等重要
三六零、谷歌、百度這類以瀏覽器起家的公司,同樣具有海量數(shù)據(jù)優(yōu)勢。見智研究認為:能夠進行持續(xù)迭代的大模型具備稀缺性。
像是對于搜索引擎這類公司,天然積累了數(shù)十年的高質量網(wǎng)絡數(shù)據(jù)資源,當搜索引擎完成對某些數(shù)據(jù)內(nèi)容的提取之后,可以對其進行分析和處理。包括數(shù)據(jù)清晰和去重,數(shù)據(jù)挖掘和分析,建立索引便于日后查詢。
此外,從GPT的發(fā)展路徑也能夠看出數(shù)據(jù)量的重要性。
從GPT1到GPT2參數(shù)投入從1.17億增長至15億,到GPT3時參數(shù)達到1750億,OpenAI 是通過篩選優(yōu)質數(shù)據(jù)形成參數(shù)量階梯式上升,最終使得大模型不斷迭代優(yōu)化,從而得到更好的大模型。
而未經(jīng)過濾或者輕度過濾的爬蟲數(shù)據(jù)往往比篩選侯的數(shù)據(jù)集質量更低,所以參數(shù)量的質量是至關重要的,從而得到參數(shù)篩選的必要性。
除了文字大模型外,圖片大模型最近也有重大進展。
日前Meta發(fā)布可分割圖像AI模型SAM及訓練資料集SA-1B。該模型能夠實現(xiàn)零樣本分割圖像中一切對象,機器視覺迎來GPT-3時刻。根據(jù)Meta官網(wǎng)消息 ,SAM目前的數(shù)據(jù)集包括在約1100萬張許可和隱私保護圖像上收集超過11億個分割標簽。
隨著數(shù)據(jù)采集需求快速增加,有望帶來下游視覺應用的大爆發(fā),此前困擾CV行業(yè)的許多問題將被直接解決。
見智研究認為:SAM可以成為AR/VR、內(nèi)容創(chuàng)作、科學領域和更普遍的AI系統(tǒng)等領域的強大組件??吹綀D像像素級別的理解和更高層次的視覺內(nèi)容語義理解之間的緊密耦合,將解鎖更強大的人工智能系統(tǒng)。
風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據(jù)此投資,責任自負。關鍵詞: