蘋(píng)果AI訓(xùn)練預(yù)算“每天數(shù)百萬(wàn)美元”,基礎(chǔ)語(yǔ)言大模型團(tuán)隊(duì)由華人領(lǐng)導(dǎo)
作者:王眉
編輯:硬AI
(資料圖片)
近日蘋(píng)果面臨諸多不利,前有華為“突襲”提前開(kāi)售Mate60 Pro,后有知名投資機(jī)構(gòu)Needham Securities稱(chēng)蘋(píng)果缺乏生成式AI和大型語(yǔ)言模型(LLM)方面的戰(zhàn)略,在A(yíng)I競(jìng)賽中已被亞馬遜、谷歌和微軟甩在身后。
不過(guò),事實(shí)可能并非如此。
據(jù)媒體周三報(bào)道,蘋(píng)果一直在增加AI部分的投入預(yù)算,訓(xùn)練費(fèi)用達(dá)每天上百萬(wàn)美元。
雖然直到今年7月才有媒體爆料蘋(píng)果已經(jīng)建立了Ajax大語(yǔ)言模型開(kāi)發(fā)框架,并在秘密開(kāi)發(fā)自己的大型語(yǔ)言模型“Apple GPT”,但蘋(píng)果關(guān)注到生成式AI遠(yuǎn)比外界想象的更早。
四年前,蘋(píng)果的人工智能主管詹南德里亞(John Giannandrea)授權(quán)組建了一個(gè)團(tuán)隊(duì)來(lái)開(kāi)發(fā)對(duì)話(huà)式人工智能(即大語(yǔ)言模型),展示了蘋(píng)果對(duì)該領(lǐng)域的重視。
幾位蘋(píng)果員工表示,盡管詹南德里亞多次表達(dá)了對(duì)由AI語(yǔ)言模型驅(qū)動(dòng)的聊天機(jī)器人潛在用途的懷疑,但蘋(píng)果并不是完全沒(méi)有為未來(lái)語(yǔ)言模型的爆發(fā)做好準(zhǔn)備。
日砸百萬(wàn)豪賭2000億參數(shù)Apple GPT 團(tuán)隊(duì)由華人領(lǐng)導(dǎo)
據(jù)悉,蘋(píng)果的Foundational Models團(tuán)隊(duì),即會(huì)話(huà)AI團(tuán)隊(duì),目前的領(lǐng)導(dǎo)者為前谷歌工程師龐若鳴。資料顯示,龐若鳴為上海交大本碩,且本碩僅用5年即畢業(yè),于2021年加入蘋(píng)果,此前在谷歌工作了15年。
團(tuán)隊(duì)現(xiàn)有16人,其中幾位也是曾在谷歌工作多年的工程師。雖然團(tuán)隊(duì)規(guī)模小,但由于訓(xùn)練LLM對(duì)算力要求極高,該團(tuán)隊(duì)每天需要花費(fèi)數(shù)百萬(wàn)美元訓(xùn)練LLM。
除此之外,據(jù)報(bào)道,至少還有兩個(gè)蘋(píng)果團(tuán)隊(duì)正在研究語(yǔ)言和圖像模型。其中一個(gè)團(tuán)隊(duì)正在研究視覺(jué)智能,致力于開(kāi)發(fā)能夠生成“圖像、視頻或3D場(chǎng)景”的軟件;另一個(gè)團(tuán)隊(duì)正在研究可以處理文本、圖像和視頻的多模態(tài)人工智能。
蘋(píng)果計(jì)劃將LLM集成在Siri語(yǔ)音助手當(dāng)中,以此達(dá)到iPhone用戶(hù)能夠使用簡(jiǎn)單的語(yǔ)音命令來(lái)自動(dòng)完成涉及多個(gè)步驟的任務(wù)。舉個(gè)例子,該技術(shù)能夠讓用戶(hù)告訴Siri助手,用他們最近拍攝的五張照片創(chuàng)建一個(gè)GIF動(dòng)圖,并將其發(fā)送給朋友。但目前,iPhone用戶(hù)必須手動(dòng)完成這個(gè)過(guò)程。
這與谷歌改進(jìn)他們的語(yǔ)音助手類(lèi)似。但蘋(píng)果認(rèn)為,其改進(jìn)的Ajax GPT的語(yǔ)言模型比OpenAI的GPT 3.5更好,預(yù)計(jì)將于明年與新版iPhone操作系統(tǒng)一起發(fā)布。
一向封閉的蘋(píng)果開(kāi)展了一場(chǎng)開(kāi)源運(yùn)動(dòng)
需要注意的是,開(kāi)發(fā)LLM或許相對(duì)容易,但是將其納入產(chǎn)品中更具挑戰(zhàn)。與一些使用基于云方法的競(jìng)爭(zhēng)對(duì)手不同,蘋(píng)果更傾向于在設(shè)備上運(yùn)行軟件,以提高隱私保護(hù)和工作效率。然而,蘋(píng)果的LLM(包括Ajax GPT)相當(dāng)龐大,由于其體積和復(fù)雜性(超過(guò)2000億個(gè)參數(shù)),很難安裝到iPhone上。
縮小大模型的做法有先例,比如谷歌的PaLM2,它有各種尺寸,包括適合設(shè)備和獨(dú)立使用的型號(hào)。
有分析稱(chēng),雖然目前還不清楚蘋(píng)果的計(jì)劃,但出于隱私考慮,他們可能會(huì)選擇較小的LLM。
這就要說(shuō)到龐若鳴了。
據(jù)了解龐若鳴的人說(shuō),他在神經(jīng)網(wǎng)絡(luò)方面發(fā)表的研究成果獲得了大批擁躉。神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的一個(gè)子集,涉及訓(xùn)練軟件識(shí)別數(shù)據(jù)中的模式和關(guān)系,類(lèi)似于人類(lèi)大腦的工作方式。龐若鳴某些比較著名的研究涉及神經(jīng)網(wǎng)絡(luò)如何與手機(jī)處理器協(xié)同工作,以及如何使用并行計(jì)算來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。并行計(jì)算是將較大的問(wèn)題分解成多個(gè)處理器可以同時(shí)計(jì)算的較小任務(wù)的過(guò)程。
龐若鳴對(duì)蘋(píng)果的影響可以從AXLearn中看出,這是他的團(tuán)隊(duì)在過(guò)去1年中開(kāi)發(fā)用于培訓(xùn)Ajax GPT的內(nèi)部軟件。AXLearn是一個(gè)機(jī)器學(xué)習(xí)框架,可以快速訓(xùn)練機(jī)器學(xué)習(xí)模型。AXLearn的部分構(gòu)成基于龐若鳴的研究,并針對(duì)谷歌云張量處理單元(TPU) 進(jìn)行了優(yōu)化。
AXLearn是JAX的一個(gè)分支,JAX是谷歌研究人員開(kāi)發(fā)的開(kāi)源框架。如果將蘋(píng)果的Ajax GPT比作一棟房子,那AXLearn就是藍(lán)圖,而JAX就是用來(lái)繪制藍(lán)圖的筆和紙。蘋(píng)果用來(lái)訓(xùn)練大語(yǔ)言模型的數(shù)據(jù)目前尚未公開(kāi)。
報(bào)道稱(chēng),今年7月份,蘋(píng)果Foundational Models團(tuán)隊(duì)悄悄地將AXLearn的代碼上傳到代碼存儲(chǔ)庫(kù)GitHub,公眾可以使用它來(lái)訓(xùn)練自己的大語(yǔ)言模型,而不必從頭開(kāi)始構(gòu)建所有內(nèi)容。蘋(píng)果公開(kāi)發(fā)布AXLearn代碼的原因尚不清楚,但公司這樣做通常是希望其他工程師能對(duì)模型進(jìn)行改進(jìn)。在詹南德里亞加入蘋(píng)果之前,對(duì)于向來(lái)行事隱秘的蘋(píng)果來(lái)說(shuō),開(kāi)放可用于商業(yè)用途的源代碼的決定顯得不同尋常。
瘋狂挖角谷歌和Meta
蘋(píng)果還在積極從谷歌和Meta的AI團(tuán)隊(duì)中“挖人”。
據(jù)悉,自從AXLearn代碼于7月上傳到GitHub上以來(lái),已有18人對(duì)其進(jìn)行了改進(jìn),其中至少有12人在過(guò)去兩年內(nèi)加入了蘋(píng)果的機(jī)器學(xué)習(xí)團(tuán)隊(duì)。這些人中,有7人曾在谷歌或Meta工作過(guò)。
華爾街見(jiàn)聞此前提及,目前“大模型的安卓”也不好過(guò),Meta內(nèi)部“算力宮斗”,一半Llama核心團(tuán)隊(duì)已離職。
風(fēng)險(xiǎn)提示及免責(zé)條款 市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶(hù)應(yīng)考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。關(guān)鍵詞: