襄阳赡陕新材料有限公司

SEO顧問服務(wù)培訓(xùn)—免費提供網(wǎng)站優(yōu)化指導(dǎo)及SEO學(xué)習(xí)方法!
您好,請 【登陸】【注冊】

搜索引擎是如何判斷文章的原創(chuàng)度的?

發(fā)布時間:2015.08.14 瀏覽:
搜索引擎是如何判斷文章的原創(chuàng)度的?
 
總有人在說自己的文章被抄襲,然后抄襲者收錄了,自己的卻沒有被收錄,我曾經(jīng)我也這樣想,甚至我使用屏蔽右鍵、屏蔽復(fù)制等手段來克制抄襲者的惡意競爭行為,對此,我今天我有不同的看法,也有不同的觀點。
 
未收錄不代表未抓取
 
確實,為了SEO的發(fā)展,自己辛辛苦苦寫了兩篇原創(chuàng)文章,被一個大型網(wǎng)站抄襲秒收錄,而自己的站點卻不收錄,這是一件非常讓人尷尬的事情,那么真的不收錄,就不是原創(chuàng)了嗎?
 
很多朋友是這樣認為的,自己的文章沒有被收錄,而抄襲者的卻收錄了,所以百度判斷自己抄襲了別人的文章,所以自己權(quán)重也就一直上不來,排名一直沒有。其實這是一個錯誤的觀點,我曾在百度排名規(guī)則的文章中提到,百度收錄是需要經(jīng)過抓取-識別-釋放這三個流程。其中在釋放的流程中,需要判斷整體網(wǎng)站的質(zhì)量,當整體網(wǎng)站質(zhì)量過關(guān),收錄相對較快,當整體網(wǎng)站信譽度沒有達到百度的標準,百度將會暫時保留你的文章,不被釋放出來。
 
不被釋放出來,但是已經(jīng)經(jīng)過了抓取和識別這兩個流程,在這里特別的說一下抓取的流程,當網(wǎng)站建立以后,提交到搜索引擎,搜索引擎基本每天都會來抓取,大家可以試著安裝百度云加速后臺可以統(tǒng)計出抓取的頁面,如果抓取不夠,也可以在百度站長平臺中設(shè)置抓取頻率和sitemap自動推送,這樣抓取的是完全沒有壓力。設(shè)置方法如下:
 
打開【百度站長平臺】點擊左側(cè)導(dǎo)航【我的網(wǎng)站】-【站點管理】-【添加網(wǎng)站】-輸入網(wǎng)站域名,根據(jù)自身條件驗證網(wǎng)站。
 
然后點擊左側(cè)導(dǎo)航【頁面抓取】-【鏈接管理】-提交方式選擇【sitemap】,然后將自己的網(wǎng)站地圖提交上去,更新時間更具你網(wǎng)站的更新時間來設(shè)置,比如網(wǎng)站每天更新一篇文章,那么就填寫1天,論壇、門戶可能添加的比較多。
 
另外在把sitemap地圖寫到robots里面,抓取基本是完全沒有問題,那么接下來就進入識別系統(tǒng),每一個頁面抓取了,就一定會進行識別對比,是否會出現(xiàn)重復(fù),與互聯(lián)網(wǎng)的內(nèi)容重復(fù)度有多少,從而判斷出頁面的原創(chuàng)度。那么在已經(jīng)判斷出原創(chuàng)度的時候,再來談收錄,先收錄誰不代表誰就是原創(chuàng)了!
 
如何判斷文章的原創(chuàng)度?
 
并不是你網(wǎng)站有文章,是你自己寫的,就一定會被搜索引擎認為這是一篇原創(chuàng)文章,因為其中還有很多技術(shù)方面的問題,搜索引擎還未能解決。
 
記得我曾經(jīng)在一個網(wǎng)站每天更新一篇文章,一篇文章的字數(shù)只有100字左右,但是文章頁面非常簡單,簡單到整個頁面沒有JS、CSS、HTML代碼,只有文字,但收錄卻非常好,而有一些網(wǎng)站,用JS、CSS、html代碼把網(wǎng)站修飾的非常漂亮,但是發(fā)布的文章卻不收錄,這讓我開始覺得代碼與原創(chuàng)度有直接關(guān)系。
 
我忘記了,在哪里看到過這樣的一句話“搜索引擎只能識別200KB以內(nèi)的內(nèi)容”,對于一個網(wǎng)站而言,200KB算是很大了,我的博客只有30KB左右,所以我博客在搜索引擎中抓取是完全沒有壓力,如果你的網(wǎng)站有超過200KB,我覺得你是應(yīng)該要優(yōu)化了。
 
這和網(wǎng)站的文件大小有什么關(guān)系呢?好,我們來看看,搜索引擎在抓取一個頁面的流程是從頭到底,任何一個頁面都有一個共同點,那就是頭部一樣、底部一樣,唯一不一樣的就是文章內(nèi)容,那么搜索引擎在抓取頭部有10KB左右是一模一樣的,到中部文字的時候只有2KB是不一樣的,而底部又有10KB是一模一樣的,那么還會認為這是原創(chuàng)文章嗎?
 
這里還得給大家灌輸一個理念,那就是搜索引擎是不認識字的,他只有把這個漢字放到他的數(shù)據(jù)庫去對比,當一對比一個新文章頁面的時候,總共22KB的頁面,居然有20KB一模一樣,就算是寫了原創(chuàng)文章,也會被列入到偽原創(chuàng)的列表中去。
 
經(jīng)過我3年的SEO優(yōu)化加測試,我對原創(chuàng)文章的判斷得出了這樣的一個理論,當一個頁面比較大的時候,一個頁面的不同點至少占頁面的1/3,那么寫多少文字呢,比如你頁面有10KB,那么至少的寫3KB的文字,剩下的7KB相同,這些才不容易被列入到偽原創(chuàng)的列表中。當然,這是我個人得出的理論,并沒有完全的證據(jù)和理論來證明。
 
為什么抄襲者的網(wǎng)站更容易收錄?
 
那么還有一個問題來了,既然要抓取、識別、釋放這么復(fù)雜的流程,為何抄襲我們網(wǎng)站的內(nèi)容還先收錄呢,這是大家很糾結(jié)的這個問題,我也糾結(jié)了很久,直到有一天,我自己做了一個平臺,每天讓自媒體人發(fā)布非常原創(chuàng)內(nèi)容的時候,我才總結(jié)出來,為何越抄襲越容易收錄!
 
在談?wù)摮u者網(wǎng)站為何會收錄塊的時候,我覺得咱們先要搞清楚新聞內(nèi)容是收錄流程,新聞內(nèi)容相對普通的內(nèi)容收錄較快,因為新聞內(nèi)容具有時效性,所以必須當場發(fā)當場收錄,然后釋放出來,不然拖到第二天在收錄的話,這個新聞可能不熱了,關(guān)注的人也就少了,百度從而失去了這個體驗。
 
而抄襲者的網(wǎng)站與新聞內(nèi)容類似,通常抄襲者的網(wǎng)站是抄襲過多篇文章,其中有直接抄襲原創(chuàng)者,也就抄襲二手文章,抄來抄去,互聯(lián)網(wǎng)同樣的文章就非常多了,當一篇文章被互聯(lián)網(wǎng)多次抄襲,這就意味著這篇文章比較熱門,不熱門怎么會這么多人抄襲呢?最終就出現(xiàn)了一個熱點效應(yīng),收錄的門檻也就降低了。所以就出現(xiàn)了抄襲者抄襲了你的文章,比你還先收錄。
 
防止抄襲最好的辦法
 
什么禁止右鍵、禁止復(fù)制這些方法都弱爆了,對方要抄襲、要采集,你這么點技術(shù)禁止,對他來說是完全沒有作用,況且人家采集是直接從代碼中采集,并非實際來到了你的網(wǎng)站,而且還會讓你的讀者覺得你網(wǎng)站體驗就嚴重問題,所以我非常不建議使用這些方法來禁止抄襲者,我也是這方面的過來人,現(xiàn)在我是用這些方法來對策的。
 
當我今天把文章寫出來后,不管是否收錄明天將會把文章通過投稿的形式發(fā)布出去,通過投稿的形式,對方會完全的尊重并且保留你的版權(quán),即使沒有留下鏈接版權(quán),至少也會留下品牌詞的版權(quán)。
 
投稿成功以后,當抄襲者在此抄襲這篇文章的時候,互聯(lián)網(wǎng)已經(jīng)有很多此文章了,第一他會覺得互聯(lián)網(wǎng)文章太多,不會再次抄襲了,因為他想抄原創(chuàng)文章,第二就算他抄襲了,互聯(lián)網(wǎng)你投了這么多文章,最終公認的版權(quán)是你的,并且多個頁面有URL直接指向你的頁面,這也是給你這篇文章做了一個最好的外鏈。
 
總結(jié):其實對于抄襲者并不是很可怕,對我們來說,應(yīng)該是一件好事情,當他們抄習(xí)慣了,自然會幫我們做到推廣的作用。
 
0
贊一個
預(yù)約SEO顧問服務(wù)請聯(lián)系:185-1018-8870(手機微信同步) 領(lǐng)取免費VIP內(nèi)部課程

文章來源:
文章標題:搜索引擎是如何判斷文章的原創(chuàng)度的?
本文地址:http://m.icoow.cn/SEOjishu/SEOjichu/152.html
版權(quán)所有 © 北京SEO技術(shù)服務(wù)中心(微信/QQ:zhizheseo/2052048546),歡迎分享本文,轉(zhuǎn)載請保留出處! SEO實戰(zhàn)培訓(xùn)

評論

游客,你好!評論請?zhí)顚戲炞C碼:點擊我更換圖片
最新評論
岑溪市| 吴江市| 资兴市| 屏东县| 张掖市| 密山市| 灵宝市| 通辽市| 尖扎县| 华容县| 逊克县| 通化市| 石柱| 黑水县| 淅川县| 巴里| 西峡县| 嘉善县| 广汉市| 景宁| 松江区| 普定县| 同心县| 巴林右旗| 博客| 西乌珠穆沁旗| 加查县| 九龙县| 桂东县| 乾安县| 广灵县| 石泉县| 辉县市| 娄底市| 乌苏市| 东明县| 浏阳市| 元江| 威信县| 健康| 高阳县|