“目前水平最高”!Meta 挑戰(zhàn) ChatGPT
北京時(shí)間2月25日,臉書母公司 Meta CEO 扎克伯格在社交媒體宣布:推出最新的基于人工智能的大型語言模型(Large Language Model Meta AI,簡(jiǎn)稱“LLaMA”)。
據(jù)Meta的首席 AI 科學(xué)家楊立昆介紹,一段時(shí)期以來一直批評(píng)ChatGPT“缺乏創(chuàng)新”,它匆忙推向大眾,并且用RLHF(人類反饋強(qiáng)化學(xué)習(xí))來糾正一些錯(cuò)誤,并不能從根本上解決問題。他介紹說:“LLaMA 是 Meta AI - FAIR 的一種新的開源、高性能大型語言模型。Meta 致力于開放研究,并在 GPL v3 許可下向研究社區(qū)發(fā)布所有模型?!?/span>
對(duì)于Meta來說,大語言模型并不是一個(gè)陌生的賽道。早在去年5月,Meta就曾推出一款面向研究人員的名為OPT-175B的大型語言模型。去年11月,Meta又開發(fā)并上線了AI語言大模型Galactica,旨在運(yùn)用機(jī)器學(xué)習(xí)來“梳理科學(xué)信息”。但此后卻因散布了大量錯(cuò)誤信息,在上線48小時(shí)后火速下線。
而ChatGPT的上線時(shí)間則為去年11月30日。也是因此,當(dāng)ChatGPT爆火時(shí),Yann LeCun還曾評(píng)論稱,人們對(duì)于ChatGPT的態(tài)度比對(duì)Glacatica更寬容。
國外投資機(jī)構(gòu)DA Davidson高級(jí)軟件分析師Gil Luria認(rèn)為:“Meta今天的公告似乎是測(cè)試他們生成式AI能力的一步,這樣他們就可以在未來將它們應(yīng)用到產(chǎn)品中?!彼€補(bǔ)充道:“生成式AI作為AI的一種新應(yīng)用,Meta對(duì)此經(jīng)驗(yàn)較少,但顯然對(duì)其未來的業(yè)務(wù)很重要?!?/span>
據(jù)悉,LLaMA 語言模型家族的參數(shù)量從 70 億到 650 億不等。相比之下,作為 AI“巨星”ChatGPT 的底層模型,OpenAI GPT-3 則擁有 1750 億個(gè)參數(shù)。
根據(jù) Meta 的說法,LLaMA 本質(zhì)上不是聊天機(jī)器人,而是一種研究工具,可能會(huì)解決有關(guān) AI 語言模型的問題。
據(jù)法新社稱,按照 Meta 的表述,LLaMA 是一套“更小、性能更好”的模型,且不同于谷歌的 LaMDA 和 OpenAI 的GPT 機(jī)密訓(xùn)練資料和演算,LLaMA 是基于公開資料進(jìn)行訓(xùn)練。
參數(shù)規(guī)模在 AI 領(lǐng)域非常重要,是負(fù)責(zé)在機(jī)器學(xué)習(xí)模型當(dāng)中根據(jù)輸入數(shù)據(jù)進(jìn)行預(yù)測(cè)或分類的變量。語言模型中的參數(shù)規(guī)模往往直接決定其性能,較大的模型通常可以處理更復(fù)雜的任務(wù)、并產(chǎn)生更連貫的輸出。然而,參數(shù)越多、模型占用的空間也越大,運(yùn)行時(shí)消耗的算力也越夸張。因此,如果一個(gè)模型能夠以更少的參數(shù)獲得與另一模型相同的結(jié)果,則表示前者的效率有顯著提高。
Meta 在官網(wǎng)表示,在大型語言模型中,像 LLaMA 這樣的小型基礎(chǔ)模型是可取的,因?yàn)闇y(cè)試新方法、驗(yàn)證他人的工作和探索新用例所需的計(jì)算能力和資源要少得多。基礎(chǔ)模型基于大量未標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練,這使得它們非常適合于各種任務(wù)的微調(diào)。與其他大型語言模型一樣,LLaMA 的工作原理是將一系列單詞作為輸入,并預(yù)測(cè)下一個(gè)單詞以遞歸生成文本。
Meta 在其研究論文中指出,LLaMA-13B 在大多數(shù)基準(zhǔn)測(cè)試中都優(yōu)于 OpenAI 的 GPT-3 (175B),并且 LLaMA-65B 與最佳模型 DeepMind 的 Chinchilla70B 和谷歌的 PaLM-540B 具有競(jìng)爭(zhēng)力。一旦經(jīng)過更廣泛的訓(xùn)練,LLaMA-13B 可能會(huì)成為希望在這些系統(tǒng)上運(yùn)行測(cè)試的小型企業(yè)的福音,但是,它要讓它脫離開發(fā)者獨(dú)立工作,還有很長(zhǎng)一段路要走。
LLaMA 與其他大模型參數(shù)對(duì)比
獨(dú)立 AI 研究員 Simon Willison 在文章中評(píng)論稱,“我認(rèn)為,我們有望在未來一、兩年內(nèi)通過自己的(旗艦級(jí))手機(jī)和筆記本電腦,運(yùn)行具備 ChatGPT 中大部分功能的語言模型。”
Meta 稱,將致力于這種開源模型的研究,新模型會(huì)開源給整個(gè) AI 研究社區(qū)使用,并授予大學(xué)、非政府組織和行業(yè)實(shí)驗(yàn)室訪問權(quán)限。另外,Meta 表示其還有更多研究需要做,以解決大型語言模型中的偏見、有害評(píng)論等風(fēng)險(xiǎn)。
Meta 訓(xùn)練其 LLaMA 模型所使用的是各類公開可用的數(shù)據(jù)集(例如 Common Crawl、維基百科以及 C4),意味著該公司可能會(huì)開源發(fā)布模型及其權(quán)重設(shè)置。在大語言模型行業(yè)當(dāng)中,這代表著一波轉(zhuǎn)折性的新發(fā)展,或?qū)⒋蚱瓶萍季揞^在競(jìng)賽中永遠(yuǎn)把最好的 AI 技術(shù)“藏”起來的定式。
項(xiàng)目組成員 Guillaume Lample 在推文中指出,“與 Chinchilla、PaLM 或者 GPT-3 不同,我們只使用公開可用的數(shù)據(jù)集,這就讓我們的工作與開源兼容且可以重現(xiàn)。而大多數(shù)現(xiàn)有模型,仍依賴于非公開可用或未明確記錄的數(shù)據(jù)內(nèi)容?!?/span>
Meta 將自己的 LLaMA 模型稱為“基礎(chǔ)模型”,意味著該公司打算以此為基礎(chǔ)構(gòu)建起更加完善的 AI 模型。這類似于 OpenAI 以 GPT-3 為基礎(chǔ)構(gòu)建 ChatGPT 的作法。Meta 方面希望 LLaMA 能在自然語言研究當(dāng)中發(fā)揮作用,進(jìn)而在“問答、自然語言理解或閱讀理解、理解能力以及解決現(xiàn)有語言模型的局限性”等方面貢獻(xiàn)力量。
雖然頂級(jí) LLaMA 模型(LLaMA-65B,擁有 650 億個(gè)參數(shù))明顯是在叫板競(jìng)爭(zhēng)對(duì)手 DeepMin、谷歌及 OpenAI 的同類方案,但此次公布陣容中最有趣的反而可能是家族中的“小弟弟”LLaMA-13B,此外,Meta 也表示將提供 7B、13B、33B 和 65B 等參數(shù)尺寸的 LLaMA。
前面提到,LLaMA在多項(xiàng)基準(zhǔn)測(cè)試時(shí),在單 GPU 上運(yùn)行的性能優(yōu)于 GPT-3。而且跟 GPT-3 系列模型必須依賴于數(shù)據(jù)中心的龐大設(shè)施不同,LLaMA-13B 有望在不久的將來,讓消費(fèi)級(jí)硬件也能獲得趨近 ChatGPT 的 AI 性能表現(xiàn)。
目前,精簡(jiǎn)版的 LLaMA 已經(jīng)登陸 GitHub。要了解完整的代碼的權(quán)重(即神經(jīng)網(wǎng)絡(luò)「學(xué)習(xí)」到的訓(xùn)練數(shù)據(jù)),Meta 已向感興趣的研究人員開放訪問申請(qǐng)表(https://forms.gle/jk851eBVbX1m5TAv5)。Meta 目前還未宣布更廣泛的模型與權(quán)重公布計(jì)劃。
LLaMA 項(xiàng)目地址:
紅杉合伙人Sonya Huang、Pat Grady曾撰文稱,當(dāng)下行業(yè)正處于生成式AI第四波發(fā)展浪潮中——?dú)⑹旨?jí)應(yīng)用涌現(xiàn)階段。隨著各大平臺(tái)發(fā)展成熟,AI模型繼續(xù)變得更好、更快、更便宜,越來越多的模型免費(fèi)、開源,應(yīng)用層面將出現(xiàn)大爆發(fā)。
LLaMA 的發(fā)布,意味著Meta 正式加入微軟、谷歌等硅谷公司的AI競(jìng)賽。不久前,谷歌剛剛推出了人工智能聊天機(jī)器人Bard,對(duì)標(biāo)的競(jìng)品正是ChatGPT。此前,ChatGPT的走紅被視為對(duì)搜索引擎的最大沖擊,而谷歌恰恰是這一領(lǐng)域的霸主。
雖然Bard在演示中的意外“翻車”一度帶崩了谷歌的股價(jià),但這一動(dòng)作傳遞出的信號(hào)已經(jīng)不言而喻。谷歌在廣告中表示,Bard使用谷歌的大型語言模型構(gòu)建,并利用網(wǎng)絡(luò)信息。谷歌還將其聊天機(jī)器人描述為“好奇心的發(fā)射臺(tái)”,稱它有助于簡(jiǎn)化復(fù)雜的話題。
作為ChatGPT“背后的人”,微軟更是有效利用了這一波紅利,宣布推出由ChatGPT支持的最新版本人工智能搜索引擎Bing(必應(yīng))和Edge瀏覽器。
公開信息顯示,2019年,微軟向OpenAI投資10億美元,雙方達(dá)成協(xié)議合作開發(fā)“通用人工智能”,同時(shí)微軟獲得將OpenAI的部分技術(shù)商業(yè)化的權(quán)限。今年1月,微軟又表示,將對(duì)OpenAI進(jìn)行為期數(shù)年、價(jià)值數(shù)以10億計(jì)美元的投資,有知情人士透露,微軟曾討論向OpenAI投資至多100億美元。
值得一提的是,微軟旗下的OpenAI、谷歌旗下的DeepMind以及Meta旗下的FAIR也被公認(rèn)為全球領(lǐng)先的三大AI實(shí)驗(yàn)室。硅谷三巨頭在大語言模型上的對(duì)戰(zhàn),不是偶然,而是必然。
? Copyright 2013 南京奧特賽人工智能技術(shù)研發(fā)有限公司 版權(quán)所有 備案號(hào):蘇ICP備19032300號(hào)-1 蘇公網(wǎng)安備32011602010459 技術(shù)支持:科威鯨網(wǎng)絡(luò)