精品国产三级a在线观看网站,亚洲综合色成在线观看,亚洲熟妇一区二区三区,,中文字幕成人精品久久不卡 ,永久免费av无码网站国产

谷歌研究論文(文章底部有論文原文鏈接)描述了一個叫 TW-BERT 的出色框架,無需重大更改即可提高搜索排名

? ? ? ? ?

§TW-BERT 是一個端到端查詢詞權(quán)重框架,它連接兩種范式改善搜索結(jié)果

§與現(xiàn)有查詢擴展模型集成,并提高性能

§部署框架需要更少更改

? ? ? ? ?

谷歌宣布了一個名為Term Weighting BERT(TW-BERT) 的優(yōu)秀的排名框架,它可以改善搜索結(jié)果,并且易于在現(xiàn)有排名系統(tǒng)中進(jìn)行部署。

? ? ? ? ?

盡管谷歌尚未確認(rèn)它正在使用 TW-BERT,但這個新框架是一個突破,它全面改進(jìn)了排名流程,包括查詢擴展。它也很容易部署,在我看來,這使得它更有可能被使用。

? ? ? ? ?

TW-BERT 有許多共同作者,其中包括Google DeepMind 杰出研究科學(xué)家、Google Research 前研究工程高級總監(jiān)Marc Najork 。Marc Najork與人合著了許多與排名過程相關(guān)的主題和許多其他領(lǐng)域的研究論文。

? ? ? ? ?

Marc Najork 被列為合著者的論文包括:


?關(guān)于優(yōu)化神經(jīng)排序模型的 Top-K 指標(biāo) – 2022

?用于不斷發(fā)展的內(nèi)容的動態(tài)語言模型 – 2021

?重新思考搜索:讓業(yè)余愛好者成為領(lǐng)域?qū)<?– 2021

?神經(jīng)排序模型的特征轉(zhuǎn)換 – – 2020

?在 TF-Ranking 中使用 BERT 學(xué)習(xí)排名 – 2020

?長篇文檔的語義文本匹配 – 2019

?TF-Ranking:用于學(xué)習(xí)排序的可擴展 TensorFlow 庫 – 2018

?用于排名指標(biāo)優(yōu)化的 LambdaLoss 框架 – 2018

?學(xué)習(xí)在個人搜索中利用選擇偏差進(jìn)行排名 - 2016


什么是 TW-BERT? ?


TW-BERT 是一個排名框架,它為搜索查詢中的單詞分配分?jǐn)?shù)(稱為權(quán)重),以便更準(zhǔn)確地確定哪些文檔與該搜索查詢相關(guān)。TW-BERT 在查詢擴展中也很有用。

? ? ? ? ?

查詢擴展是一個重述搜索查詢或向其添加更多單詞(例如將單詞“recipe”添加到查詢“chicken soup”)以更好地將搜索查詢與文檔匹配的過程。向查詢添加分?jǐn)?shù)有助于更好地確定查詢的內(nèi)容。


TW-BERT 連接兩種信息檢索范式 ?


該研究論文討論了兩種不同的搜索方法。一種是基于統(tǒng)計的,另一種是深度學(xué)習(xí)模型。

接下來討論了這些不同方法的優(yōu)點和缺點,并提出 TW-BERT 是一種彌合這兩種方法且沒有任何缺點的方法。

? ? ? ? ?

論文提到

? ? ? ? ?

“These statistics based retrieval methods provide efficient search that scales up with the corpus size and generalizes to new domains.

“這些基于統(tǒng)計的檢索方法提供了有效的搜索,可以隨著語料庫的大小進(jìn)行擴展并推廣到新的領(lǐng)域。

? ? ? ? ?

However, the terms are weighted independently and don’t consider the context of the entire query.”

然而,這些術(shù)語是獨立加權(quán)的,并且不考慮整個查詢的上下文?!?/span>

? ? ? ? ?

研究人員隨后指出,深度學(xué)習(xí)模型可以找出搜索查詢的上下文。

? ? ? ? ?

解釋如下:

? ? ? ? ?

“For this problem, deep learning models can perform this contextualization over the query to provide better representations for individual terms.”

“對于這個問題,深度學(xué)習(xí)模型可以對查詢執(zhí)行上下文化,以便為各個術(shù)語提供更好的表示。”

? ? ? ? ?

研究人員建議使用 TW-Bert 來連接這兩種方法。

? ? ? ? ?

該突破描述是這樣的

? ? ? ? ?

“We bridge these two paradigms to determine which are the most relevant or non-relevant search terms in the query…

“我們將這兩種范式聯(lián)系起來,以確定查詢中哪些是最相關(guān)或不相關(guān)的搜索詞......

? ? ? ? ?

Then these terms can be up-weighted or down-weighted to allow our retrieval system to produce more relevant results.”

然后可以提高或降低這些術(shù)語的權(quán)重,以使我們的檢索系統(tǒng)能夠產(chǎn)生更相關(guān)的結(jié)果。”


TW-BERT 搜索詞權(quán)重示例 ?


該研究論文提供了搜索查詢“Nike running Shoes”的示例。簡單來說,“Nike running Shoes”這個詞是排名算法必須按照搜索者想要理解的方式理解的三個詞。他們解釋說,強調(diào)查詢的“running”部分會顯示包含耐克以外品牌的不相關(guān)搜索結(jié)果。在該示例中,品牌名稱 Nike 很重要,因此排名過程應(yīng)要求候選網(wǎng)頁中包含“Nike”一詞。

? ? ? ? ?

候選網(wǎng)頁是正在考慮用于搜索結(jié)果的頁面。TW-BERT 的作用是為搜索查詢的每個部分提供一個分?jǐn)?shù)(稱為權(quán)重),以便它以與輸入搜索查詢的人有相同意義的方式。在這個例子中,Nike這個詞被認(rèn)為很重要,所以應(yīng)該給它一個更高的分?jǐn)?shù)(權(quán)重)。? ? ??


論文提到

? ? ? ? ?

“Therefore the challenge is that we must ensure that Nike” is weighted high enough while still providing running shoes in the final returned results.”

“因此,挑戰(zhàn)在于我們必須確保Nike”的權(quán)重足夠高,同時在最終返回的結(jié)果中仍然提供running shoes?!?/span>

? ? ? ? ?

另一個挑戰(zhàn)是理解“running”和“shoes”這兩個詞的上下文,這意味著將這兩個詞連接為短語“running shoes”時,權(quán)重應(yīng)該更高,而不是分別設(shè)置這兩個詞權(quán)重。

? ? ? ? ?

解釋如下

“The second aspect is how to leverage more meaningful n-gram terms during scoring.

“第二個方面是如何在評分過程中利用更有意義的 n-gram語法術(shù)語。

? ? ? ? ?

In our query, the terms “running” and “shoes” are handled independently, which can equally match “running socks” or “skate shoes”.

在我們的查詢中,術(shù)語“running”和“shoes”是獨立處理的,它們同樣可以匹配“running socks”或“skate shoes”。

? ? ? ? ?

In this case, we want our retriever to work on an n-gram term level to indicate that “running shoes” should be up-weighted when scoring.”

在這種情況下,我們希望我們的檢索器在 n-gram 術(shù)語級別上工作,以表明“running shoes”在評分時應(yīng)該增加權(quán)重?!?/span>


解決當(dāng)前框架的局限性 ?


該研究論文總結(jié)了傳統(tǒng)的加權(quán)在查詢變化方面的局限性,并提到那些基于統(tǒng)計的加權(quán)方法在零樣本場景中表現(xiàn)不佳。零樣本學(xué)習(xí)是指模型解決未經(jīng)訓(xùn)練的問題的能力。

還總結(jié)了當(dāng)前術(shù)語擴展方法固有的局限性。術(shù)語擴展是指使用同義詞來查找搜索查詢的更多答案或推斷另一個單詞時。例如,當(dāng)有人搜索“chicken soup”時,它會被推斷為“chicken soup recipe”。

? ? ? ? ?

論文當(dāng)前方法的缺點:

? ? ? ? ?

“…these auxiliary scoring functions do not account for additional weighting steps carried out by scoring functions used in existing retrievers, such as query statistics, document statistics, and hyperparameter values.

“......這些輔助評分函數(shù)不考慮現(xiàn)有檢索器中使用的評分函數(shù)執(zhí)行的額外加權(quán)步驟,例如查詢統(tǒng)計、文檔統(tǒng)計和超參數(shù)值。

? ? ? ? ?

This can alter the original distribution of assigned term weights during final scoring and retrieval.”

這可能會改變最終評分和檢索期間分配的術(shù)語權(quán)重的原始分布?!?/span>

? ? ? ? ?

接下來,研究人員表示,深度學(xué)習(xí)有其自身的復(fù)雜性,即部署它們的復(fù)雜性以及當(dāng)它們遇到未經(jīng)過預(yù)先訓(xùn)練的新領(lǐng)域時的不可預(yù)測的行為。這就是 TW-BERT 發(fā)揮作用的地方。

TW-BERT 連接兩種方法 ?

所提出的解決方案類似于混合方法。在下面的引用中,術(shù)語 IR 表示信息檢索。

? ? ? ? ?

論文提到


“To bridge the gap, we leverage the robustness of existing lexical retrievers with the contextual text representations provided by deep models.

“為了彌補這一差距,我們利用現(xiàn)有詞匯檢索器的穩(wěn)健性和深度模型提供的上下文文本表示。

? ? ? ? ?

Lexical retrievers already provide the capability to assign weights to query n-gram terms when performing retrieval.

詞匯檢索器已經(jīng)提供了在執(zhí)行檢索時為查詢n-gram語法術(shù)語分配權(quán)重的功能。

? ? ? ? ?

We leverage a language model at this stage of the pipeline to provide appropriate weights to the query n-gram terms.

我們在這個階段利用語言模型為查詢n-gram詞項提供適當(dāng)?shù)臋?quán)重。

? ? ? ? ?

This Term Weighting BERT (TW-BERT) is optimized end-to-end using the same scoring functions used within the retrieval pipeline to ensure consistency between training and retrieval.

該術(shù)語加權(quán) BERT (TW-BERT) 使用檢索使用的相同評分函數(shù)進(jìn)行端到端優(yōu)化,以確保訓(xùn)練和檢索之間的一致性。

? ? ? ? ?

This leads to retrieval improvements when using the TW-BERT produced term weights while keeping the IR infrastructure similar to its existing production counterpart.”

當(dāng)使用 TW-BERT 生成的術(shù)語權(quán)重時,這會導(dǎo)致檢索改進(jìn),同時保持 IR 基礎(chǔ)設(shè)施與其現(xiàn)有的對應(yīng)產(chǎn)品相似?!?/span>

? ? ? ? ?

TW-BERT 算法為查詢分配權(quán)重,以提供更準(zhǔn)確的相關(guān)性分?jǐn)?shù),然后排名過程的其余部分可以使用該分?jǐn)?shù)。

? ? ? ? ?? ?術(shù)語加權(quán)檢索 (TW-BERT)? ?

?


TW-BERT 易于部署 ?


TW-BERT 的優(yōu)點之一是它可以像一個插入組件一樣直接插入到當(dāng)前的信息檢索排序過程中。


“這使我們能夠在檢索期間直接在 IR 系統(tǒng)中部署術(shù)語權(quán)重。這與之前的加權(quán)方法不同,后者需要進(jìn)一步調(diào)整檢索器的參數(shù)以獲得最佳檢索性能,因為它們優(yōu)化通過啟發(fā)式獲得的術(shù)語權(quán)重,而不是優(yōu)化端到端?!边@種易于部署的重要之處在于,不需要專門的軟件或硬件更新即可將 TW-BERT 添加到排名算法過程中。


Google 在其排名算法中使用 TW-BERT 嗎? ?


如前所述,部署 TW-BERT 相對容易。在我看來,可以合理地假設(shè),部署的簡便性增加了該框架被添加到 Google 算法中的可能性。這意味著谷歌可以將 TW-BERT 添加到算法的排名部分,而無需進(jìn)行全面的核心算法更新。

? ? ? ? ?

除了易于部署之外,在猜測算法是否可以使用時要尋找的另一個質(zhì)量是該算法在改進(jìn)當(dāng)前技術(shù)水平方面的成功程度。有許多研究論文只取得了有限的成功或沒有任何改進(jìn)。這些算法很有趣,但可以合理地假設(shè)它們不會進(jìn)入谷歌的算法。令人感興趣的是那些非常成功的,TW-BERT 就是這種情況。

? ? ? ? ?

TW-BERT 非常成功。他們表示,很容易將其放入現(xiàn)有的排名算法中,并且其性能與“密集神經(jīng)排名器”一樣好。


論文解釋了它如何改進(jìn)當(dāng)前的排名系統(tǒng):

? ? ? ? ?

“Using these retriever frameworks, we show that our term weighting method outperforms baseline term weighting strategies for in-domain tasks.

“使用這些檢索器框架,我們表明我們的術(shù)語加權(quán)方法優(yōu)于領(lǐng)域內(nèi)任務(wù)的基線術(shù)語加權(quán)策略。

? ? ? ? ?

In out-of-domain tasks, TW-BERT improves over baseline weighting strategies as well as dense neural rankers.

在域外任務(wù)中,TW-BERT 改進(jìn)了基線加權(quán)策略以及密集的神經(jīng)排序器。

? ? ? ? ?

We further show the utility of our model by integrating it with existing query expansion models, which improves performance over standard search and dense retrieval in the zero-shot cases.

我們通過將模型與現(xiàn)有的查詢擴展模型集成來進(jìn)一步展示模型的實用性,這在零樣本情況下提高了標(biāo)準(zhǔn)搜索和密集檢索的性能。

? ? ? ? ?

This motivates that our work can provide improvements to existing retrieval systems with minimal onboarding friction.”

這促使我們的工作能夠以最小的基礎(chǔ)來改進(jìn)現(xiàn)有的檢索系統(tǒng)?!?/span>

? ? ? ? ?

這就是 TW-BERT 可能已經(jīng)成為 Google 排名算法一部分的兩個充分理由。

? ? ? ? ?

1.這是對當(dāng)前排名框架的全面改進(jìn)

2.易于部署

? ? ? ? ?

如果 Google 部署了 TW-BERT,那么這可能可以解釋 SEO 監(jiān)控工具和搜索營銷社區(qū)成員在過去一個月報告的排名波動。一般來說,谷歌只會宣布一些排名變化,特別是當(dāng)它們造成明顯影響時,例如谷歌宣布 BERT 算法時。在沒有官方確認(rèn)的情況下,我們只能推測 TW-BERT 是 Google 搜索排名算法一部分的可能性。

? ? ? ? ?

盡管如此,TW-BERT 是一個了不起的框架,它似乎提高了信息檢索系統(tǒng)的準(zhǔn)確性,并且可以被谷歌使用。



翻譯整理作品, 原文作者:Roger Montti


文章中提到的論文原文在這里:https://marc.najork.org/pdfs/kdd2023-twbert.pdf

? ? ? ? ?


點贊(2) 打賞

評論列表 共有 0 條評論

暫無評論

服務(wù)號

訂閱號

備注【拉群】

商務(wù)洽談

微信聯(lián)系站長

發(fā)表
評論
立即
投稿
返回
頂部