百度辨別原創(chuàng)文章原理詳解
2010-11-06
一、首先要明確SEO中的兩個(gè)詞:原創(chuàng)和偽原創(chuàng) 原創(chuàng):簡(jiǎn)單地理解就是第一次在網(wǎng)絡(luò)上發(fā)表的內(nèi)容,以前沒有出現(xiàn)過(guò)的內(nèi)容。 偽原創(chuàng):就是從網(wǎng)站找來(lái)資料進(jìn)行二次加工,二次修改之后的內(nèi)容,如修改標(biāo)題,修改內(nèi)容,增加些文字或者減少一些文字等。 搜索引擎對(duì)于原一、首先要明確SEO中的兩個(gè)詞:原創(chuàng)和偽原創(chuàng)
原創(chuàng):簡(jiǎn)單地理解就是第一次在網(wǎng)絡(luò)上發(fā)表的內(nèi)容,以前沒有出現(xiàn)過(guò)的內(nèi)容。
偽原創(chuàng):就是從網(wǎng)站找來(lái)資料進(jìn)行二次加工,二次修改之后的內(nèi)容,如修改標(biāo)題,修改內(nèi)容,增加些文字或者減少一些文字等。
搜索引擎對(duì)于原創(chuàng)的判斷是如何進(jìn)行的呢?
一般來(lái)講有以下幾個(gè)方面的因素決定:
1、快照日期。
2、蜘蛛抓取日期。
3、頁(yè)面外鏈的多少。
4、文章修改的程度。
舉個(gè)例子如果我在我的網(wǎng)站www.piaoxian.net更新了一篇文章新聞。搜索引擎來(lái)到這個(gè)網(wǎng)站并且抓取到了這篇文章,放到數(shù)據(jù)庫(kù),并且在收錄數(shù)據(jù)庫(kù)中沒有發(fā)現(xiàn)類似內(nèi)容,那么就會(huì)被認(rèn)為是原創(chuàng)。
在這點(diǎn)上有個(gè)細(xì)節(jié)需要注意:
1:文章被轉(zhuǎn)載
如果剛發(fā)表的一篇文章被其它轉(zhuǎn)載了,那么誰(shuí)是原創(chuàng)呢?那要看誰(shuí)更先被搜索引擎抓取到,也就是更新周期的問(wèn)題了。如果在a發(fā)表 被 b轉(zhuǎn)載,如果先抓取到前者站,那么歸a,如果先抓取b站,那么原創(chuàng)就歸b站了,所以不是說(shuō)你先發(fā)表了,原創(chuàng)就是你的,這個(gè)得看搜索引擎什么時(shí)間收錄了你的內(nèi)容。
2:文章收錄
文章必須被收錄,如果沒有被收錄,肯定是在搜索數(shù)據(jù)庫(kù)中石找不到的,搜索引擎根本就找不到這篇文章,更談不上什么原創(chuàng)了。
3、訪問(wèn)時(shí)間
如果蜘蛛先訪問(wèn)了B站呢?
1、當(dāng)然權(quán)重給B站,一般的情況下都會(huì)這樣!
2、如果B站轉(zhuǎn)載的文章帶了A站的原文章頁(yè)面鏈接呢?
3、這就很明白了,剛收錄的時(shí)候,如果排名,兩條結(jié)果一起出現(xiàn),有可能還是B站的排名好一點(diǎn)。
當(dāng)然,文章轉(zhuǎn)載次數(shù)多了以后,A站的鏈接越多,對(duì)A站的文章越有好處,排名會(huì)慢慢變成A站在前面。
如果另外轉(zhuǎn)載的文章帶的是B站頁(yè)面的鏈接呢?
它們?nèi)绻袛嗖缓茫妥兂闪艘粋€(gè)鏈接流行度的比賽了。
不過(guò),如果都有很多外部鏈接,并且相差不大,那么判斷的規(guī)則應(yīng)該回到原點(diǎn),誰(shuí)先被收錄誰(shuí)就是原創(chuàng)。
4、偽原創(chuàng)
偽原創(chuàng)也會(huì)被認(rèn)為是原創(chuàng)?
大多時(shí)候是這樣的,搜索引擎蜘蛛不能明確分別這些東西,因?yàn)樗乃季S太程式化了。如果你的標(biāo)題改過(guò),文章的段落改過(guò),那么蜘蛛將很難確定這篇文章是否有過(guò)收錄,也許它可以確定有部分內(nèi)容是重復(fù)的,但它也不能因?yàn)檫@些而將這篇文章確認(rèn)為是轉(zhuǎn)載!當(dāng)然,隨著搜索引擎程式設(shè)計(jì)的提高,應(yīng)該會(huì)有一個(gè)相似度的東西出來(lái),比如文字內(nèi)容相似度超過(guò)百分之幾就會(huì)被認(rèn)為是轉(zhuǎn)載。
這樣分析下來(lái),相信大家應(yīng)該了解了吧。只是核桃自己的看法,希望大家吸收自己想要的東西,不認(rèn)同的了也來(lái)提下自己的意見!
另外提幾個(gè)建議:
1、如果你的站是新站,權(quán)重不高,如何讓蜘蛛首頁(yè)找到你的頁(yè)面并放入數(shù)據(jù)庫(kù)?其實(shí)很簡(jiǎn)單:用網(wǎng)摘、bd收藏這些tag/tools”target=”_blank”rel=”nofollow”title=”飄仙建站網(wǎng) – 建站” >工具讓蜘蛛更快的找到你的頁(yè)面!
2、大家都有過(guò)建議,就是加上自己的版權(quán)及內(nèi)容頁(yè)面的地址,別人采集的時(shí)候你就爽了,收錄雖然不會(huì)快,但后鏈接多了,你依然是原創(chuàng)內(nèi)容。
3、發(fā)表文章等到自己收錄以后再去其它的站點(diǎn)進(jìn)行發(fā)表,同時(shí)加上自己的原文地址,這種辦法很有保障!
5、快照日期
快照日期顯示時(shí)間早的,一般就是原創(chuàng)了吧!
不一定,這個(gè)說(shuō)法要在一個(gè)更新周期之內(nèi),比如說(shuō)文章發(fā)表后一周內(nèi),快照時(shí)間越早的地址將越有被認(rèn)可為原創(chuàng)的可能。
但如果文章都發(fā)表了幾個(gè)月了,說(shuō)不定搜索引擎已經(jīng)重新獲取過(guò)快照了,快照的日期就變了!
還有其它的可能嗎?
有,一般比如百度收錄,他可能會(huì)有一個(gè)收錄的數(shù)據(jù)庫(kù),經(jīng)過(guò)過(guò)濾后,收錄的內(nèi)容才會(huì)到搜索結(jié)果里來(lái)。在這個(gè)期間就有一些問(wèn)題了,比如A站首次發(fā)表,B站轉(zhuǎn)載。蜘蛛先訪問(wèn)A站再訪問(wèn)B站。而后可能先把B站的結(jié)果放出來(lái)了,而A站還在數(shù)據(jù)庫(kù)里。
所以說(shuō)搜索引擎沒有收錄并不表示搜索引擎蜘蛛沒有訪問(wèn)過(guò)這些內(nèi)容,也許在搜索引擎的庫(kù)存里已經(jīng)有記錄了,只是你查的時(shí)間沒有放出來(lái)而已,就像25號(hào)才放出來(lái)的內(nèi)容,但是快照是20號(hào)的,這就是搜索引擎的庫(kù)存內(nèi)容,同時(shí)這也是檢驗(yàn)原創(chuàng)的核心時(shí)間點(diǎn)。
這種情況一般出現(xiàn)在新站與老站之間,A站發(fā)表,B站轉(zhuǎn)載,但A站在搜索引擎的信任度并不高的時(shí)候。不過(guò)只要是A站先被訪問(wèn)到的,原創(chuàng)權(quán)還是A站的,這是難分出來(lái)的情況,因?yàn)槲覀儾恢乐┲胂仍L問(wèn)哪個(gè)站,除非你知道兩個(gè)站的網(wǎng)站空間日志內(nèi)容,能看到搜索引擎對(duì)兩個(gè)頁(yè)面的訪問(wèn)時(shí)間