GPT 是 生成預(yù)訓(xùn)練轉(zhuǎn)換器 的縮寫。這個(gè)術(shù)語(yǔ)的字面意思其實(shí)很清楚:生成 表示這些模型可以創(chuàng)建新的文本,預(yù)訓(xùn)練 則說明模型已經(jīng)從大量數(shù)據(jù)中進(jìn)行了初步的學(xué)習(xí),同時(shí)還可以通過額外的訓(xùn)練來調(diào)整其在特定任務(wù)上的表現(xiàn)。然而,關(guān)鍵的部分在于 轉(zhuǎn)換器 ,這是一種特定類型的神經(jīng)網(wǎng)絡(luò),也是推動(dòng)當(dāng)前人工智能發(fā)展的核心技術(shù)。 在本文中,我們將探討轉(zhuǎn)換器的內(nèi)部運(yùn)作,并通過數(shù)據(jù)流的視角逐步解析它們的工作過程。轉(zhuǎn)換器模型可以用來構(gòu)建多種不同的模型,從將語(yǔ)音轉(zhuǎn)變?yōu)槲谋?,到生成合成語(yǔ)音,再到根據(jù)文本描述創(chuàng)建圖像。 最初由Google在2017年發(fā)布的轉(zhuǎn)換器,是專門用來進(jìn)行語(yǔ)言翻譯的。然而,像ChatGPT這樣的變體則被訓(xùn)練來處理并理解文本的一部分,甚至可能包含周圍的圖像或音頻,然后預(yù)測(cè)接下來會(huì)出現(xiàn)什么樣的文本。這個(gè)預(yù)測(cè)結(jié)果會(huì)以概率分布的形式呈現(xiàn),也就是說,它會(huì)給出多種可能的文本部分及其出現(xiàn)的概率。 盡管乍一看,預(yù)測(cè)下一個(gè)詞與生成新文本似乎是兩個(gè)完全不同的目標(biāo),但擁有一個(gè)這樣的預(yù)測(cè)模型后,我們只需提供一個(gè)初始文本片段,讓模型從它生成的概率分布中隨機(jī)抽樣,不斷迭代,就可以生成更長(zhǎng)的文本。 例如,在運(yùn)行GPT-2進(jìn)行文本生成的過程中,它會(huì)不斷預(yù)測(cè)并采樣下一個(gè)文本部分,直到生成一整個(gè)故事。然而,如果我們用的是更大、更強(qiáng)大的GPT-3模型,它能夠生成更連貫、更合理的文本。這個(gè)迭代預(yù)測(cè)和采樣的過程,本質(zhì)上也是我們?cè)谂cChatGPT等大型語(yǔ)言模型進(jìn)行互動(dòng)時(shí),看到它們一個(gè)詞一個(gè)詞生成新內(nèi)容的方式。 轉(zhuǎn)換器生成特定單詞時(shí),首先會(huì)將輸入分解成許多小部分,稱為 符號(hào)或 tokens。這些符號(hào)可能是單詞的一部分、詞組,甚至是圖像或音頻的小塊。然后,每個(gè)符號(hào)都會(huì)被轉(zhuǎn)化為向量,這意味著一串?dāng)?shù)字,用以編碼該部分?jǐn)?shù)據(jù)的意義。 ymbols are linked to vectors, representing lists of numbers encoding their meanings. 這些向量通過一個(gè)被稱為 注意力機(jī)制(attention mechanism)的過程,這使得它們能夠相互“交流”,并在此過程中更新其值。注意力機(jī)制能夠識(shí)別出詞語(yǔ)在不同上下文中的不同含義,例如在“機(jī)器學(xué)習(xí)模型”中的“模型”與在“時(shí)尚模型”中的“模型”含義不同。經(jīng)過注意力機(jī)制處理后,這些向量再進(jìn)入另一個(gè)過程,被稱為 多層感知塊,每個(gè)向量都獨(dú)立地通過這個(gè)塊進(jìn)行處理,并基于計(jì)算結(jié)果更新其值。 經(jīng)過上述兩個(gè)塊的處理,向量不斷來回循環(huán),直到最后,所有上下文的意義都被凝結(jié)在最終的那個(gè)向量中。通過對(duì)該向量進(jìn)行特定操作,我們可以獲得一個(gè)概率分布,表示文本接下來可能出現(xiàn)的所有符號(hào)及其概率。這個(gè)過程大致相當(dāng)于在初始文本片段基礎(chǔ)上,不斷向模型提供新的“預(yù)測(cè)”輸入,從而生成完整的文本。 這種預(yù)測(cè)和采樣的方法不僅僅適用于文本生成,還可以應(yīng)用于許多其他任務(wù)。那么,為了將這個(gè)工具轉(zhuǎn)變?yōu)橐粋€(gè)聊天機(jī)器人,我們可以給出一個(gè)初始的系統(tǒng)提示,再使用用戶的提問作為開始的對(duì)話,再由模型預(yù)測(cè)并生成AI助手的回復(fù)。訓(xùn)練過程能夠讓模型更好地理解和生成連貫的對(duì)話。 總之,理解轉(zhuǎn)換器以及其核心機(jī)制——注意力機(jī)制,對(duì)于深入理解GPT及其工作原理至關(guān)重要。在接下來的章節(jié)中,我們將詳細(xì)探討注意力塊、多層感知塊等具體模塊的工作機(jī)制。 通過本文,我們了解了GPT背后的轉(zhuǎn)換器模型運(yùn)作機(jī)制,從輸入數(shù)據(jù)的分解與編碼,到注意力機(jī)制的應(yīng)用,再到最終的預(yù)測(cè)生成過程。如果你對(duì)GPT如何生成文本有了更深入的理解,現(xiàn)在可以嘗試應(yīng)用這些知識(shí),與ChatGPT進(jìn)行互動(dòng),或者進(jìn)一步學(xué)習(xí)轉(zhuǎn)換器和深度學(xué)習(xí)的更多內(nèi)容。無(wú)論選擇哪種方式,這些知識(shí)都將幫助你更好地利用和理解現(xiàn)代人工智能技術(shù)。
了解GPT的基礎(chǔ)
轉(zhuǎn)換器的工作原理
轉(zhuǎn)換器的基礎(chǔ)組成
預(yù)測(cè)和生成新文本的過程
預(yù)測(cè)的實(shí)現(xiàn)
生成概率分布
特征提取和信息傳遞
循環(huán)更新和意義凝結(jié)
GPT的創(chuàng)新和特點(diǎn)
總結(jié)與行動(dòng)
又到周末了,時(shí)間過的真快,2024又過去一大半了~
文章為作者獨(dú)立觀點(diǎn),不代表DLZ123立場(chǎng)。如有侵權(quán),請(qǐng)聯(lián)系我們。( 版權(quán)為作者所有,如需轉(zhuǎn)載,請(qǐng)聯(lián)系作者 )

網(wǎng)站運(yùn)營(yíng)至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個(gè)互相交流的平臺(tái)和資源的對(duì)接,特地開通了獨(dú)立站交流群。
群里有不少運(yùn)營(yíng)大神,不時(shí)會(huì)分享一些運(yùn)營(yíng)技巧,更有一些資源收藏愛好者不時(shí)分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。
現(xiàn)在可以掃碼進(jìn)群,備注【加群】。 ( 群完全免費(fèi),不廣告不賣課!)