小说阅读网站,我欲封天耳根小说

“目前水平最高”！Meta 挑戰(zhàn) ChatGPT

Meta發(fā)布全新大型語言模型LLaMA，加入硅谷AI競(jìng)賽。繼微軟、谷歌之后，F(xiàn)acebook母公司Meta也宣布加入AI軍備競(jìng)賽。

Meta 推出全新大語言模型

北京時(shí)間2月25日，臉書母公司 Meta CEO 扎克伯格在社交媒體宣布：推出最新的基于人工智能的大型語言模型（Large Language Model Meta AI，簡(jiǎn)稱“LLaMA”）。

據(jù)扎克伯格介紹，F(xiàn)acebook AI Research 研發(fā)的 LLaMA是“目前水平最高的”大型語言模型，目標(biāo)是幫助研究人員推進(jìn)他們?cè)?AI 領(lǐng)域的工作。

據(jù)Meta的首席 AI 科學(xué)家楊立昆介紹，一段時(shí)期以來一直批評(píng)ChatGPT“缺乏創(chuàng)新”，它匆忙推向大眾，并且用RLHF（人類反饋強(qiáng)化學(xué)習(xí)）來糾正一些錯(cuò)誤，并不能從根本上解決問題。他介紹說：“LLaMA 是 Meta AI - FAIR 的一種新的開源、高性能大型語言模型。Meta 致力于開放研究，并在 GPL v3 許可下向研究社區(qū)發(fā)布所有模型?！?/span>

對(duì)于Meta來說，大語言模型并不是一個(gè)陌生的賽道。早在去年5月，Meta就曾推出一款面向研究人員的名為OPT-175B的大型語言模型。去年11月，Meta又開發(fā)并上線了AI語言大模型Galactica，旨在運(yùn)用機(jī)器學(xué)習(xí)來“梳理科學(xué)信息”。但此后卻因散布了大量錯(cuò)誤信息，在上線48小時(shí)后火速下線。

而ChatGPT的上線時(shí)間則為去年11月30日。也是因此，當(dāng)ChatGPT爆火時(shí)，Yann LeCun還曾評(píng)論稱，人們對(duì)于ChatGPT的態(tài)度比對(duì)Glacatica更寬容。

國外投資機(jī)構(gòu)DA Davidson高級(jí)軟件分析師Gil Luria認(rèn)為：“Meta今天的公告似乎是測(cè)試他們生成式AI能力的一步，這樣他們就可以在未來將它們應(yīng)用到產(chǎn)品中?！彼€補(bǔ)充道：“生成式AI作為AI的一種新應(yīng)用，Meta對(duì)此經(jīng)驗(yàn)較少，但顯然對(duì)其未來的業(yè)務(wù)很重要?！?/span>

LLaMA實(shí)力如何？

據(jù)悉，LLaMA 語言模型家族的參數(shù)量從 70 億到 650 億不等。相比之下，作為 AI“巨星”ChatGPT 的底層模型，OpenAI GPT-3 則擁有 1750 億個(gè)參數(shù)。

根據(jù) Meta 的說法，LLaMA 本質(zhì)上不是聊天機(jī)器人，而是一種研究工具，可能會(huì)解決有關(guān) AI 語言模型的問題。

據(jù)法新社稱，按照 Meta 的表述，LLaMA 是一套“更小、性能更好”的模型，且不同于谷歌的 LaMDA 和 OpenAI 的GPT 機(jī)密訓(xùn)練資料和演算，LLaMA 是基于公開資料進(jìn)行訓(xùn)練。

參數(shù)規(guī)模在 AI 領(lǐng)域非常重要，是負(fù)責(zé)在機(jī)器學(xué)習(xí)模型當(dāng)中根據(jù)輸入數(shù)據(jù)進(jìn)行預(yù)測(cè)或分類的變量。語言模型中的參數(shù)規(guī)模往往直接決定其性能，較大的模型通常可以處理更復(fù)雜的任務(wù)、并產(chǎn)生更連貫的輸出。然而，參數(shù)越多、模型占用的空間也越大，運(yùn)行時(shí)消耗的算力也越夸張。因此，如果一個(gè)模型能夠以更少的參數(shù)獲得與另一模型相同的結(jié)果，則表示前者的效率有顯著提高。

Meta 在官網(wǎng)表示，在大型語言模型中，像 LLaMA 這樣的小型基礎(chǔ)模型是可取的，因?yàn)闇y(cè)試新方法、驗(yàn)證他人的工作和探索新用例所需的計(jì)算能力和資源要少得多。基礎(chǔ)模型基于大量未標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練，這使得它們非常適合于各種任務(wù)的微調(diào)。與其他大型語言模型一樣，LLaMA 的工作原理是將一系列單詞作為輸入，并預(yù)測(cè)下一個(gè)單詞以遞歸生成文本。

Meta 在其研究論文中指出，LLaMA-13B 在大多數(shù)基準(zhǔn)測(cè)試中都優(yōu)于 OpenAI 的 GPT-3 （175B），并且 LLaMA-65B 與最佳模型 DeepMind 的 Chinchilla70B 和谷歌的 PaLM-540B 具有競(jìng)爭(zhēng)力。一旦經(jīng)過更廣泛的訓(xùn)練，LLaMA-13B 可能會(huì)成為希望在這些系統(tǒng)上運(yùn)行測(cè)試的小型企業(yè)的福音，但是，它要讓它脫離開發(fā)者獨(dú)立工作，還有很長(zhǎng)一段路要走。

LLaMA 與其他大模型參數(shù)對(duì)比

獨(dú)立 AI 研究員 Simon Willison 在文章中評(píng)論稱，“我認(rèn)為，我們有望在未來一、兩年內(nèi)通過自己的（旗艦級(jí)）手機(jī)和筆記本電腦，運(yùn)行具備 ChatGPT 中大部分功能的語言模型。”

Meta 稱，將致力于這種開源模型的研究，新模型會(huì)開源給整個(gè) AI 研究社區(qū)使用，并授予大學(xué)、非政府組織和行業(yè)實(shí)驗(yàn)室訪問權(quán)限。另外，Meta 表示其還有更多研究需要做，以解決大型語言模型中的偏見、有害評(píng)論等風(fēng)險(xiǎn)。

使用公開數(shù)據(jù)集訓(xùn)練或?qū)⒋蚱拼竽Ｐ桶l(fā)展格局

Meta 訓(xùn)練其 LLaMA 模型所使用的是各類公開可用的數(shù)據(jù)集（例如 Common Crawl、維基百科以及 C4），意味著該公司可能會(huì)開源發(fā)布模型及其權(quán)重設(shè)置。在大語言模型行業(yè)當(dāng)中，這代表著一波轉(zhuǎn)折性的新發(fā)展，或?qū)⒋蚱瓶萍季揞^在競(jìng)賽中永遠(yuǎn)把最好的 AI 技術(shù)“藏”起來的定式。

項(xiàng)目組成員 Guillaume Lample 在推文中指出，“與 Chinchilla、PaLM 或者 GPT-3 不同，我們只使用公開可用的數(shù)據(jù)集，這就讓我們的工作與開源兼容且可以重現(xiàn)。而大多數(shù)現(xiàn)有模型，仍依賴于非公開可用或未明確記錄的數(shù)據(jù)內(nèi)容?！?/span>

Meta 將自己的 LLaMA 模型稱為“基礎(chǔ)模型”，意味著該公司打算以此為基礎(chǔ)構(gòu)建起更加完善的 AI 模型。這類似于 OpenAI 以 GPT-3 為基礎(chǔ)構(gòu)建 ChatGPT 的作法。Meta 方面希望 LLaMA 能在自然語言研究當(dāng)中發(fā)揮作用，進(jìn)而在“問答、自然語言理解或閱讀理解、理解能力以及解決現(xiàn)有語言模型的局限性”等方面貢獻(xiàn)力量。

雖然頂級(jí) LLaMA 模型（LLaMA-65B，擁有 650 億個(gè)參數(shù)）明顯是在叫板競(jìng)爭(zhēng)對(duì)手 DeepMin、谷歌及 OpenAI 的同類方案，但此次公布陣容中最有趣的反而可能是家族中的“小弟弟”LLaMA-13B，此外，Meta 也表示將提供 7B、13B、33B 和 65B 等參數(shù)尺寸的 LLaMA。

前面提到，LLaMA在多項(xiàng)基準(zhǔn)測(cè)試時(shí)，在單 GPU 上運(yùn)行的性能優(yōu)于 GPT-3。而且跟 GPT-3 系列模型必須依賴于數(shù)據(jù)中心的龐大設(shè)施不同，LLaMA-13B 有望在不久的將來，讓消費(fèi)級(jí)硬件也能獲得趨近 ChatGPT 的 AI 性能表現(xiàn)。

目前，精簡(jiǎn)版的 LLaMA 已經(jīng)登陸 GitHub。要了解完整的代碼的權(quán)重（即神經(jīng)網(wǎng)絡(luò)「學(xué)習(xí)」到的訓(xùn)練數(shù)據(jù)），Meta 已向感興趣的研究人員開放訪問申請(qǐng)表（https://forms.gle/jk851eBVbX1m5TAv5）。Meta 目前還未宣布更廣泛的模型與權(quán)重公布計(jì)劃。

LLaMA 項(xiàng)目地址：

https://github.com/facebookresearch/llama

LLaMA 論文地址：

https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

硅谷巨頭的的AI之戰(zhàn)

紅杉合伙人Sonya Huang、Pat Grady曾撰文稱，當(dāng)下行業(yè)正處于生成式AI第四波發(fā)展浪潮中——?dú)⑹旨?jí)應(yīng)用涌現(xiàn)階段。隨著各大平臺(tái)發(fā)展成熟，AI模型繼續(xù)變得更好、更快、更便宜，越來越多的模型免費(fèi)、開源，應(yīng)用層面將出現(xiàn)大爆發(fā)。

LLaMA 的發(fā)布，意味著Meta 正式加入微軟、谷歌等硅谷公司的AI競(jìng)賽。不久前，谷歌剛剛推出了人工智能聊天機(jī)器人Bard，對(duì)標(biāo)的競(jìng)品正是ChatGPT。此前，ChatGPT的走紅被視為對(duì)搜索引擎的最大沖擊，而谷歌恰恰是這一領(lǐng)域的霸主。

雖然Bard在演示中的意外“翻車”一度帶崩了谷歌的股價(jià)，但這一動(dòng)作傳遞出的信號(hào)已經(jīng)不言而喻。谷歌在廣告中表示，Bard使用谷歌的大型語言模型構(gòu)建，并利用網(wǎng)絡(luò)信息。谷歌還將其聊天機(jī)器人描述為“好奇心的發(fā)射臺(tái)”，稱它有助于簡(jiǎn)化復(fù)雜的話題。

作為ChatGPT“背后的人”，微軟更是有效利用了這一波紅利，宣布推出由ChatGPT支持的最新版本人工智能搜索引擎Bing（必應(yīng)）和Edge瀏覽器。

公開信息顯示，2019年，微軟向OpenAI投資10億美元，雙方達(dá)成協(xié)議合作開發(fā)“通用人工智能”，同時(shí)微軟獲得將OpenAI的部分技術(shù)商業(yè)化的權(quán)限。今年1月，微軟又表示，將對(duì)OpenAI進(jìn)行為期數(shù)年、價(jià)值數(shù)以10億計(jì)美元的投資，有知情人士透露，微軟曾討論向OpenAI投資至多100億美元。

值得一提的是，微軟旗下的OpenAI、谷歌旗下的DeepMind以及Meta旗下的FAIR也被公認(rèn)為全球領(lǐng)先的三大AI實(shí)驗(yàn)室。硅谷三巨頭在大語言模型上的對(duì)戰(zhàn)，不是偶然，而是必然。