上期我們通過“什么是SGE”和“SGE是如何運(yùn)作的”這幾部分的介紹,對(duì)SGE有了一定的了解,今天我們繼續(xù)來深入探討研究生成式AI。 經(jīng)過深思熟悉之后,我們將SGE作為一個(gè)實(shí)驗(yàn)項(xiàng)目推出,并遵循我們的人工智能原則。我們?cè)陂_發(fā)這一測(cè)試項(xiàng)目時(shí)采取了周密的步驟和審慎的方法,借鑒了我們多年在搜索領(lǐng)域積累的保護(hù)措施和經(jīng)驗(yàn)。以下是我們的一些重要考慮因素。隨著時(shí)間的推移,我們將不斷優(yōu)化和改進(jìn)我們的方法,并與行業(yè)專家、執(zhí)政人員、民權(quán)和人權(quán)領(lǐng)袖、內(nèi)容創(chuàng)作者等廣泛合作,作為實(shí)驗(yàn)的一部分。 目前,SGE采用了多種語言模型,其中包括MUM和PaLM2的高級(jí)版本。通過在功能集中使用多個(gè)模型,我們能夠進(jìn)一步優(yōu)化和微調(diào)這些模型,以滿足用戶的獨(dú)特需求,并在他們的信息搜索過程中提供幫助。 圖片來源:網(wǎng)絡(luò) 很多人已經(jīng)直接與語言模型進(jìn)行了互動(dòng),包括通過Bard等實(shí)驗(yàn)。雖然SGE也應(yīng)用了語言模型,但我們有意訓(xùn)練它來執(zhí)行與搜索相關(guān)的特定任務(wù),包括識(shí)別與輸出信息相一致的高質(zhì)量網(wǎng)絡(luò)結(jié)果。這些模型與我們的核心排名系統(tǒng)配合使用,以提供有幫助且可靠的搜索結(jié)果。 通過將SGE限定在這些特定任務(wù)中,包括驗(yàn)證和合作等方面,我們能夠顯著減輕語言模型已知的一些限制,如虛構(gòu)或不準(zhǔn)確。我們進(jìn)一步通過利用現(xiàn)有的搜索質(zhì)量系統(tǒng)以及識(shí)別和排名高質(zhì)量可靠信息的能力來應(yīng)對(duì)這些挑戰(zhàn)。下面將更詳細(xì)地介紹: 在負(fù)責(zé)任地開發(fā)產(chǎn)品時(shí),人為參與和評(píng)估起著重要的作用。除了其他質(zhì)量檢查外,我們?cè)谟?xùn)練SGE的輸出時(shí)還加入測(cè)試人員的參與,重點(diǎn)關(guān)注長(zhǎng)度、格式和清晰度等屬性。 在搜索領(lǐng)域,長(zhǎng)期以來我們一直采用了嚴(yán)格的人為參與和評(píng)估流程來訓(xùn)練和改進(jìn)我們的排名系統(tǒng),并且我們將許多經(jīng)過充分測(cè)試的原則和經(jīng)驗(yàn)應(yīng)用到SGE的訓(xùn)練和評(píng)估中,包括: ?評(píng)估員: 我們與專門的搜索質(zhì)量評(píng)估員合作,幫助我們衡量輸出和展示結(jié)果的質(zhì)量。這些評(píng)級(jí)不直接影響SGE的輸出,但用于訓(xùn)練語言模型并改善整體體驗(yàn)。 ?重點(diǎn)分析: 遵循我們?cè)谒阉黝I(lǐng)域進(jìn)行重大發(fā)布的流程,我們對(duì)多個(gè)廣泛而代表性的查詢集合進(jìn)行結(jié)果分析,并進(jìn)行更詳細(xì)的研究,以確認(rèn)響應(yīng)是否符合我們的質(zhì)量標(biāo)準(zhǔn)。特別是,我們著重關(guān)注可能更容易受到已知質(zhì)量風(fēng)險(xiǎn)影響的主題領(lǐng)域,或者更加復(fù)雜微妙的領(lǐng)域。這包括可能面臨安全或包容性問題風(fēng)險(xiǎn)更高的查詢類別,并旨在確保我們的保護(hù)和響應(yīng)在這些領(lǐng)域中有效。 ?“紅隊(duì)”安全測(cè)試: 我們對(duì)這些系統(tǒng)進(jìn)行對(duì)抗性測(cè)試,以發(fā)現(xiàn)系統(tǒng)未按預(yù)期運(yùn)行的領(lǐng)域。這有助于發(fā)現(xiàn)偏見問題、安全問題和其他需要改進(jìn)的方面。 我們正在繼續(xù)研究探索新的技術(shù)來發(fā)展和改進(jìn)這些方法。 我們知道,人們使用搜索來尋找可信賴的信息,包括驗(yàn)證他們?cè)谄渌胤铰牭降膬?nèi)容,因此我們對(duì)于提供可靠、有幫助和高質(zhì)量信息的標(biāo)準(zhǔn)要求非常高。這就是為什么我們?cè)谒阉髦幸肓松墒饺斯ぶ悄?,并將其與我們幾十年來不斷打磨完善出的核心搜索排名和質(zhì)量系統(tǒng)相結(jié)合。多年來,我們一直在將人工智能技術(shù)應(yīng)用于搜索,并開發(fā)了一套嚴(yán)謹(jǐn)、嚴(yán)格的評(píng)估流程,以確保任何更新都能保持我們?yōu)樘峁┛煽克阉鹘Y(jié)果所設(shè)定的高標(biāo)準(zhǔn)。 與我們的排名系統(tǒng)旨在避免意外觸及或冒犯人們的潛在有害、仇恨或不當(dāng)內(nèi)容一樣,SGE也不會(huì)在其回復(fù)中展示此類內(nèi)容。 當(dāng)涉及到對(duì)信息質(zhì)量有更高要求的查詢,我們對(duì)SGE也設(shè)定了更高的標(biāo)準(zhǔn)。在搜索中,我們將這類查詢稱為YMYL主題,例如金融、健康或公民信息都屬于YMYL主題。在這些領(lǐng)域,人們期待更加精準(zhǔn)的搜索結(jié)果。 對(duì)于YMYL主題,SGE會(huì)更加強(qiáng)調(diào)生成經(jīng)過可靠來源驗(yàn)證的回復(fù)。我們還訓(xùn)練模型在適當(dāng)?shù)那闆r下在輸出中包含免責(zé)聲明。例如,在與健康相關(guān)的查詢中,如果我們顯示了回復(fù),免責(zé)聲明會(huì)強(qiáng)調(diào)人們不應(yīng)該僅依賴該信息作為醫(yī)學(xué)建議,而應(yīng)該與醫(yī)療專業(yè)人士合作獲得個(gè)性化的護(hù)理。 對(duì)于某些主題,例如在互聯(lián)網(wǎng)上可能缺乏高質(zhì)量或可靠的信息來源時(shí),SGE是不會(huì)生成回復(fù)的。這種情況,我們通常稱之為“數(shù)據(jù)空白”或“信息空白”。當(dāng)我們的系統(tǒng)認(rèn)為回復(fù)的可信度較低時(shí),SGE將不會(huì)生成基于人工智能的快照。此外,SGE不會(huì)為色情或危險(xiǎn)主題生成快照,也不會(huì)為包含導(dǎo)致人員受傷的搜索生成快照,例如,在與自殘相關(guān)的搜索中,我們的系統(tǒng)會(huì)自動(dòng)在搜索結(jié)果的頂部顯示可信賴的求助熱線資源。 我們的自動(dòng)化系統(tǒng)致力于防止違反政策的內(nèi)容出現(xiàn)在SGE中。SGE采取的政策與我們精選摘要和自動(dòng)生成部分的特殊政策相一致,包括對(duì)可能包含色情、仇恨、暴力或其他違背公共利益主題共識(shí)的內(nèi)容進(jìn)行仔細(xì)審查。 雖然我們的系統(tǒng)通常能夠在內(nèi)容出現(xiàn)之前有效地捕捉到違反政策的內(nèi)容,但SGE是一個(gè)測(cè)試功能,違反政策的內(nèi)容依舊有可能出現(xiàn)。在這種情況下,我們會(huì)根據(jù)政策采取行動(dòng),防止這些違規(guī)內(nèi)容再次出現(xiàn)。我們還會(huì)利用這些案例來指導(dǎo)未來對(duì)模型的改進(jìn)。鑒于SGE是Search Labs中的一項(xiàng)測(cè)試功能,我們將繼續(xù)審查和適當(dāng)調(diào)整我們的政策,讓其在時(shí)間的沉淀下,變得更成熟更有幫助。 我們做的另一個(gè)有意的選擇涉及到SGE中反應(yīng)的流暢性,無論是在人工智能驅(qū)動(dòng)的快照還是對(duì)話模式中。 我們發(fā)現(xiàn),給模型留有余地來創(chuàng)造流暢的、聽起來像人類的反應(yīng),會(huì)導(dǎo)致其有更高的概率輸出不準(zhǔn)確的內(nèi)容(見下文的限制)。與此同時(shí),當(dāng)回復(fù)具有流暢和對(duì)話性質(zhì)時(shí),我們發(fā)現(xiàn)人工評(píng)估員更容易相信這些回復(fù),也不太容易發(fā)現(xiàn)錯(cuò)誤。 考慮到人們對(duì)搜索的信任,我們有意地對(duì)對(duì)話性做了一定的限制。也就是說,例如,比起將SGE中的對(duì)話模式看作一個(gè)自由流暢的創(chuàng)意頭腦風(fēng)暴伙伴,人們會(huì)更傾向于它能提供更加事實(shí)性的回復(fù)并鏈接至相關(guān)資源。 在平衡體驗(yàn)的流暢性和信息質(zhì)量方面非常重要,隨著我們?cè)谶@個(gè)平衡上的不斷迭代,SGE將會(huì)不斷改進(jìn)。 有時(shí),LLMs有可能生成似乎包含了人類觀點(diǎn)或情感的回復(fù),這是因?yàn)樗鼈冊(cè)谟?xùn)練時(shí)使用了人們用來表達(dá)人類體驗(yàn)的語言。我們特意訓(xùn)練SGE避免反映特定的人設(shè)。例如,SGE不會(huì)以第一人稱回復(fù),我們對(duì)模型進(jìn)行了微調(diào),以提供客觀、中立的回復(fù),并通過網(wǎng)絡(luò)結(jié)果進(jìn)行印證。 雖然我們?cè)赟GE中加入了多種保護(hù)機(jī)制,但LLMs和這一初期實(shí)驗(yàn)形式的體驗(yàn)都存在已知的限制。以下是我們?cè)谠u(píng)估和對(duì)抗性測(cè)試中觀察到的一些損失模式,以及我們?cè)赟GE中預(yù)計(jì)的其他限制。在許多情況下,我們已經(jīng)通過模型更新和額外的微調(diào)進(jìn)行了改進(jìn),并且隨著SGE的發(fā)展,我們預(yù)計(jì)將取得進(jìn)一步的進(jìn)展。 圖片來源:網(wǎng)絡(luò) ?在核實(shí)過程中的誤解: 我們注意到有些情況下,SGE雖然能夠恰當(dāng)?shù)乇鎰e相關(guān)信息來支持其快照,但會(huì)對(duì)語言產(chǎn)生輕微誤解,改變了輸出的含義。 ?錯(cuò)覺: 與所有基于LLM的體驗(yàn)一樣,SGE有時(shí)可能會(huì)錯(cuò)誤地陳述事實(shí)或錯(cuò)誤地識(shí)別見解。 ?偏見:由于SGE的訓(xùn)練目標(biāo)是與高質(zhì)量資源相印證的回復(fù),這些資源通常擁有較高的排名,因此SGE快照可能比網(wǎng)絡(luò)上的內(nèi)容涵蓋的范圍更窄,從而在結(jié)果中反映出偏見。這容易給人一種模型已經(jīng)學(xué)習(xí)到這種偏見的印象。然而,真相可能只是SGE提供的輸出反映了在排名靠前的結(jié)果中存在的偏見。這也是當(dāng)前搜索結(jié)果中經(jīng)常出現(xiàn)的現(xiàn)象。例如,權(quán)威組織和媒體機(jī)構(gòu)在討論男子體育時(shí)通常不會(huì)加上“男性”這個(gè)限定詞,因此關(guān)于該體育項(xiàng)目的常規(guī)搜索可能會(huì)偏向于男性選手或球隊(duì),即使關(guān)于女性選手或球隊(duì)的信息可能是同樣甚至更準(zhǔn)確的回復(fù)。 ?觀點(diǎn)暗示人設(shè):雖然SGE被設(shè)計(jì)成在其生成的內(nèi)容中反映中立、客觀的意見,但在某些情況下,其內(nèi)容可能反映了網(wǎng)絡(luò)上存在的觀點(diǎn),給人一種模型展示出特定人設(shè)的印象。 ?與現(xiàn)有搜索功能的重復(fù)或矛盾:由于SGE與其他搜索結(jié)果和頁面上的功能集成在一起,SGE的輸出可能會(huì)與結(jié)果中的其他信息產(chǎn)生矛盾。例如,人們可能會(huì)看到一個(gè)突出顯示單一來源觀點(diǎn)的精選摘要結(jié)果,而SGE則代表了在一系列結(jié)果中得到印證的綜合觀點(diǎn)。 在負(fù)責(zé)任地推出SGE的過程中,我們?cè)O(shè)定了清晰的用戶期望,并且積極關(guān)注目前仍然存在的限制。即使在提升質(zhì)量和安全性方面取得進(jìn)展,我們依舊會(huì)保持謹(jǐn)慎。通過率先在Search Labs中提供SGE,我們給予用戶與這項(xiàng)新技術(shù)互動(dòng)的機(jī)會(huì),同時(shí)也坦誠(chéng)地告知他們這仍處于實(shí)驗(yàn)階段。 雖然SGE的發(fā)展仍處于初期階段,但我們正在積極改進(jìn)用戶體驗(yàn),并致力于提升質(zhì)量和功能。我們期待從實(shí)驗(yàn)室用戶的反饋中汲取經(jīng)驗(yàn),不斷改進(jìn)和迭代,共同構(gòu)建搜索的未來。
文章為作者獨(dú)立觀點(diǎn),不代表DLZ123立場(chǎng)。如有侵權(quán),請(qǐng)聯(lián)系我們。( 版權(quán)為作者所有,如需轉(zhuǎn)載,請(qǐng)聯(lián)系作者 )

網(wǎng)站運(yùn)營(yíng)至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個(gè)互相交流的平臺(tái)和資源的對(duì)接,特地開通了獨(dú)立站交流群。
群里有不少運(yùn)營(yíng)大神,不時(shí)會(huì)分享一些運(yùn)營(yíng)技巧,更有一些資源收藏愛好者不時(shí)分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。
現(xiàn)在可以掃碼進(jìn)群,備注【加群】。 ( 群完全免費(fèi),不廣告不賣課!)