2019-10-27 12:34:33來源:游戲狗整理編輯:夏祺
據(jù)外媒報(bào)道,谷歌目前正在對其核心搜索算法進(jìn)行調(diào)整,稱這可能會幫助搜索查詢效果提高10%。谷歌引入了其研究人員開發(fā)的尖端自然語言處理(NLP)技術(shù),并在過去10個(gè)月中將其應(yīng)用于搜索產(chǎn)品中。
本質(zhì)上,谷歌聲稱其可通過更好地理解句子中單詞之間的關(guān)系來提高搜索結(jié)果。谷歌研究員兼搜索業(yè)務(wù)副總裁潘杜·納亞克(Pandu Nayak)表示,老版谷歌搜索算法將句子分解成“一連串的單詞”,并分析重要單詞的意思,從而給出簡單的本地搜索結(jié)果。而新的算法能夠理解上下文語境,進(jìn)而給出更精確準(zhǔn)確的結(jié)果。
谷歌調(diào)整后的搜索算法基于語言表達(dá)模型BERT,即“Bidirectional Encoder Representations from Transformers”的縮寫,它將句子作為整體來看待,更注重句子的整體意義。谷歌高級研究員兼研究高級副總裁杰夫·迪恩(Jeff Dean)表示,隨著時(shí)間的推移,這種培訓(xùn)在讓NLP模型“理解”上下文方面變得非常有效。
谷歌表示,它在過去幾天始終在推動算法改進(jìn),這應(yīng)該會影響到美國約10%的英語搜索查詢結(jié)果,其他語種的改進(jìn)將在稍后討論。
對搜索的所有改進(jìn)都會經(jīng)過一系列測試,以確保它們確實(shí)改善了查詢結(jié)果。其中一項(xiàng)測試涉及使用谷歌的核心人類評審員,他們通過對搜索結(jié)果的質(zhì)量進(jìn)行評級來培訓(xùn)公司的算法。此外,谷歌還會進(jìn)行實(shí)時(shí)A/B測試。
當(dāng)然,并不是每個(gè)查詢都會受到BERT的影響,這只是谷歌用來對搜索結(jié)果進(jìn)行排名的諸多不同工具中最新的一個(gè)。這些工具到底是如何兼容工作的,這仍然是個(gè)謎。谷歌有意將其中某些過程保秘,以防止垃圾郵件發(fā)送者對其系統(tǒng)進(jìn)行欺騙。
除此之外,保密的另一個(gè)重要原因是:當(dāng)計(jì)算機(jī)使用機(jī)器學(xué)習(xí)技術(shù)做出決定時(shí),很難知道它做出這些選擇的原因。機(jī)器學(xué)習(xí)的所謂“黑匣子”是個(gè)棘手問題,因?yàn)槿绻Y(jié)果在某種程度上是錯(cuò)誤的,那么很難診斷原因。
谷歌表示,該公司已經(jīng)努力確保在搜索算法中加入BERT后不會增加偏差,這是機(jī)器學(xué)習(xí)中的一個(gè)常見問題,機(jī)器學(xué)習(xí)的訓(xùn)練模型本身也是存在偏差的。由于BERT是在巨大英語句子語料庫上訓(xùn)練的,這些句子本身也是有偏見的,所以這是個(gè)需要密切關(guān)注的問題。
該公司還表示,預(yù)計(jì)其新算法在引導(dǎo)流量方面不會出現(xiàn)重大變化,至少對于大型出版商而言是這樣。每當(dāng)谷歌發(fā)出改變其搜索算法的信號時(shí),整個(gè)網(wǎng)絡(luò)都會加以密切關(guān)注,畢竟谷歌搜索排名的變化有時(shí)候決定了公司的生死存亡。
每個(gè)依靠網(wǎng)絡(luò)流量賺錢的人絕對應(yīng)該注意到這一點(diǎn)。當(dāng)談到其搜索結(jié)果的質(zhì)量時(shí),納亞克說:“這是我們在過去五年中經(jīng)歷的最積極的變化,也可能是公司成立以來最大的變化之一。”