京東商品標題如何優(yōu)化(技術(shù)貼)

2015-07-02|HiShop
導(dǎo)讀:“標題為皇,內(nèi)容為王”這句話大家應(yīng)該都知道,京東商品標題如何優(yōu)化,這里接下來要講到的是京東文本權(quán)重的問題,這個問題和京東商品標題優(yōu)化有直接的關(guān)系。...
京東商品標題如何優(yōu)化(技術(shù)貼)

  “標題為皇,內(nèi)容為王”這句話大家應(yīng)該都知道,再任何一個地方都適用,京東商品標題如何優(yōu)化,這里接下來要講到的是京東文本權(quán)重的問題,這個問題和京東商品標題優(yōu)化有直接的關(guān)系。

  首先解釋一下什么是文本權(quán)重:文本權(quán)重主要是比較用戶搜索詞和您的商品相關(guān)文本信息(商品標題,商品分類,商品擴展屬性...)的文本相關(guān)度。決定文本相關(guān)度的因素主要有以下三個:

  一: 詞頻 二:詞的唯一性 三:文本長度

  那么何為文本相關(guān)度呢?為什么由這三項因素決定呢?我先解釋一下各個因素的具體含義,然后再對一些喜歡深究原理的朋友(技術(shù)路線的朋友)貼出擴展閱讀的算法帖子來解釋目前用的比較多的兩個文本相關(guān)度算法(bm25算法,和余弦夾角算法)的公式和具體解釋。

  詞頻:搜索詞在商品文本信息中出現(xiàn)的次數(shù)

  詞的唯一性:詞在商品文本信息中出現(xiàn)的次數(shù) / 總商品數(shù)

  文本長度:就是商品文本信息的文本長度

  通俗的講文本相關(guān)度就是指兩段文本的含義是否相近。文本的含義是由基本的語義單元也就是 '詞' 次序組合而成。舉個比較簡單的例子,比如說下面這段文本:"長江市長江大橋",如果切分方式不同,含義也就不同, 它可以有兩種解釋:1. 長江市 長江大橋 (代表一座橋) 2. 長江 市長 江大橋 (代表一個人)。 所以比較兩段文本的相關(guān)度可以轉(zhuǎn)換成比較兩段文本所構(gòu)成的詞的組合的相關(guān)度。如果兩段文章的中心詞們大多都相同,且同一個中心詞在兩短文章的中心程度都差不多的話,可以判定兩段文章的意思差不多一樣。那么如何絕對中心詞的中心程度呢?如果一個詞在這篇文章中出現(xiàn)多次,且只在這篇文章中出現(xiàn),而且這篇文章還不是特別長,那么這個詞其實就可以認為他是這篇文中的中心詞。他的中心程度可以用一個術(shù)語來表示叫做:term weight(詞相對文章權(quán)重值),那么term weight的計算公式一般都是這樣: tf(詞出現(xiàn)的頻率)/idf(詞的唯一性)/dl(文章的文本長度) 當然這都是簡寫。搜索引擎把用戶的查詢詞也當做一段文本,商品的文本信息也當做一段文本,那么文本相關(guān)度就成了用戶查詢詞相對于商品文本信息中的相關(guān)度。對于計算機來說,必須把它轉(zhuǎn)換成數(shù)學(xué)模型才能得以計算,目前有兩種比較流行的算法,我在這不細闡述,但是我貼出了兩個我認為寫的比較好的博客,大家有時間可以閱讀以下(對于對數(shù)學(xué)比較敢興趣的),京東采用的是bm25算法,詞頻部分做了修改,因為不是我操手改的所以細節(jié)并不清楚。我估計就是設(shè)了個最大詞頻,避免疊詞對文本產(chǎn)生過大影響。

  京東商品標題如何優(yōu)化上述從技術(shù)方面給大家詮釋了一些,從計算公式以及權(quán)重來解釋標題的優(yōu)化,希望這些對大家有幫助。

重磅推薦:商城開店目錄

第一部分:概念篇

第二部分:社區(qū)團購

第三部分:零售商城

第四部分:微商城分銷

第五部分:小程序商城

第六部分:小程序直播