走出京東標(biāo)題優(yōu)化誤區(qū) 并非為了提升排名
從2014年下半年開始我就關(guān)注所有關(guān)于京東的搜索培訓(xùn),發(fā)現(xiàn)了直到今日還是有大量的人在做搜索培訓(xùn)的時(shí)候,花大量的篇幅在講關(guān)于搜索標(biāo)題怎么去優(yōu)化。并且給出了很多標(biāo)題命名的黃金法則,應(yīng)該按照什么樣的格式命名標(biāo)題會(huì)使得搜索排名上去。對(duì)此我想糾正下這個(gè)觀點(diǎn),幫助大家走出這個(gè)京東標(biāo)題優(yōu)化誤區(qū)。
官方不可能把重要的排序權(quán)重因子放在像標(biāo)題這種商家可以隨意自行修改的特征上來(lái)。原理我先不闡述,我先貼出一個(gè)官方的京東搜索引擎對(duì)于某一個(gè)關(guān)鍵詞下各個(gè)商品標(biāo)題的打分?jǐn)?shù)據(jù):
大家可以看到其實(shí)標(biāo)題其實(shí)本來(lái)占總得分的比例就比較低,而且所有的商品相差都不是很大,那么做標(biāo)題優(yōu)化有意義嗎?我認(rèn)為是有意義的,但是他的意義不是在于提升你的搜索排名,而是通過(guò)標(biāo)題去刺激用戶的購(gòu)買欲望,提升轉(zhuǎn)換率。因?yàn)闃?biāo)題,主圖,價(jià)格,評(píng)論數(shù),品牌 展示在搜索結(jié)果頁(yè)的五個(gè)商品特征,他和其他特征共同決定了用戶是否會(huì)點(diǎn)進(jìn)你的商品詳情頁(yè)。
那么有很多人會(huì)說(shuō),雖然相差不大,但是我也想拿這點(diǎn)分?jǐn)?shù),怎么能讓我的商品的文本權(quán)重提高了,首先我解釋一下什么是文本權(quán)重:文本權(quán)重主要是比較用戶搜索詞和您的商品相關(guān)文本信息(商品標(biāo)題,商品分類,商品擴(kuò)展屬性...)的相關(guān)程度。
絕對(duì)相關(guān)程度主要由以下三個(gè)因素絕對(duì): 1: 詞頻 2:詞的唯一性 3:文本長(zhǎng)度 那么何為相關(guān)程度呢?為什么由這幾項(xiàng)因素組成呢?我先介紹以下各個(gè)因素的含義,然后再對(duì)一些喜歡深究原理的朋友我會(huì)貼出擴(kuò)展閱讀的算法帖子來(lái)解釋目前用的比較多的兩個(gè)文本相關(guān)度算法(bm25算法,和余弦夾角算法)的公式和具體解釋。詞頻:用戶查詢?cè)~在商品出現(xiàn)的頻率 詞的唯一性:詞在商品相關(guān)文本出現(xiàn)的次數(shù) / 商品數(shù) 文本長(zhǎng)度:就是商品文本信息包含的字?jǐn)?shù) 下面我來(lái)解釋為什么這樣
通俗的講文本相關(guān)度就是指兩段文本的意思是否相近。文本的含義是由基本的語(yǔ)義單元也就是詞語(yǔ)順序組合而成,舉個(gè)例子,比如說(shuō)這一段文本:長(zhǎng)江市長(zhǎng)江大橋,如果組成的基本詞語(yǔ)不同,意思也就不同,他可以有兩種解釋:1. 長(zhǎng)江市 長(zhǎng)江大橋 (表示的一座橋) 2. 長(zhǎng)江 市長(zhǎng) 江大橋 (表示一個(gè)人)。所以比較兩段文本的相關(guān)度可以轉(zhuǎn)換成比較兩段文本所構(gòu)成的詞的組合的相關(guān)度。
那么如果兩段文章的中心詞們大多都相同,且同一個(gè)中心詞在兩短文章的中心程度都差不多的話,可以判定兩段文章的意思差不多一樣。那么如何絕對(duì)中心程度呢?如果一個(gè)詞在這篇文章中出現(xiàn)多次,且只在這篇文章中出現(xiàn),而且這篇文章還不是特別長(zhǎng),那么這個(gè)詞其實(shí)就可以認(rèn)為他是這篇文中的中心詞。他的中心程度可以用一個(gè)術(shù)語(yǔ)來(lái)表示叫做:term weight(詞相對(duì)文章權(quán)重值),那么term weight的計(jì)算公式一般都是這樣: tf(詞出現(xiàn)的頻率)/idf(詞的唯一性)/dl(文章的文本長(zhǎng)度) 當(dāng)然這都是簡(jiǎn)寫。
搜索引擎把用戶的查詢?cè)~也當(dāng)做一段文本,商品的文本信息也當(dāng)做一段文本,那么文本相關(guān)度就成了用戶查詢?cè)~相對(duì)于商品文本信息中的相關(guān)度。對(duì)于計(jì)算機(jī)來(lái)說(shuō),必須把它轉(zhuǎn)換成數(shù)學(xué)模型才能得以計(jì)算,目前有兩種比較流行的算法,我在這不細(xì)闡述,京東采用的是bm25算法,詞頻部分做了修改,因?yàn)椴皇?*手改的所以細(xì)節(jié)并不清楚。我估計(jì)就是設(shè)了個(gè)最大詞頻,避免疊詞對(duì)文本產(chǎn)生過(guò)大影響。
但是我這篇文章的意義就是希望大家走出京東標(biāo)題優(yōu)化誤區(qū),大家不要把優(yōu)化標(biāo)題的精力放在提升排名上,也別相信什么固定標(biāo)記格式可以提升排名,而是要大膽創(chuàng)新,用標(biāo)題去吸引用戶。