国产污污污污在线观看_免费的毛片网站在线播放_日本在线不卡一区二区免费_亚洲Av综合永久无码精品天堂_影视欧美少妇综合_女人18毛片水真多免费播放_欧美亚洲日韩国产手机版_av三级片在线观看_武汉别墅影院定制_国产精选大秀一区二区

專業(yè)的廣州網(wǎng)站建設(shè)、廣州網(wǎng)站制作公司為您服務(wù),電話:020-85548809,29883069 手機訪問
微信關(guān)注
關(guān)注奇億廣州網(wǎng)站建設(shè)微信
網(wǎng)站導(dǎo)航
新聞中心
首頁>新聞中心>網(wǎng)站優(yōu)化

淺談百度快照抓取網(wǎng)站的原理及問題

添加時間:2012/8/10 13:24:20    編輯:奇億網(wǎng)站建設(shè)公司

    
    網(wǎng)站在搜索引擎(SE)里的具體表現(xiàn),是每個SEO都非常關(guān)注的問題,SEO工程師經(jīng)常根據(jù)快照來分析網(wǎng)站的狀態(tài),針對快照的更新情況來做調(diào)整,以便更好地優(yōu)化或者提升網(wǎng)站的綜合指標(biāo)?煺,在搜索引擎中的應(yīng)用,為分析網(wǎng)站提供了有利的條件因素。
  我們拿百度來舉個例子,其他搜索引擎的原理都大同小異。百度快照的定義,參見百度搜索幫助:每個未被禁止搜索的網(wǎng)頁,在百度上都會自動生成臨時緩存頁面,稱為“百度快照”。而官方給百度快照賦予的功能就是,在查詢結(jié)果中將要打開的網(wǎng)頁無法打開或者載入速度很慢的時候,“百度快照”可以快速瀏覽頁面內(nèi)容。
百度快照的原理,百度搜索引擎內(nèi)部搜索程序?qū)W(wǎng)絡(luò)上的數(shù)據(jù)進(jìn)行組織處理的過程,對文件數(shù)據(jù)會進(jìn)行索引存儲的具體體現(xiàn)就是百度快照。通俗來講,百度獲取數(shù)據(jù)的過程,就是分發(fā)出百度蜘蛛,在整個互聯(lián)網(wǎng)通過彼此的鏈接互通情況下獲取數(shù)據(jù);而百度快照是在百度蜘蛛通過某一鏈接到達(dá)新的網(wǎng)站或單個頁面時,對這個網(wǎng)站首頁或者單個頁面的數(shù)據(jù)存儲;百度內(nèi)部機制會根據(jù)具體的算法,對數(shù)據(jù)進(jìn)行歸類索引緩存,用戶檢索時,百度在通過提取數(shù)據(jù)庫服務(wù)器中索引的緩存數(shù)據(jù),就看到了的快照。
我們經(jīng)常會發(fā)現(xiàn)百度快照有時候更新,有時候卻又很久都不變,那百度快照到底有什么幾率呢,其實這一切都在服務(wù)器日志中可以看到。
  百度快照很多站長在抱怨我的快照一直停留在23 24 16這樣的時間 每個月更新一次,有的甚至半年沒更新
  快照也是一個搜索引擎的附加程序作為搜索引擎的一環(huán) 所有的程序都要求是處理最優(yōu)結(jié)果,節(jié)省運算時間為前提處理數(shù)據(jù)。所以百度對于每個網(wǎng)站都有一個快照更新的評級,在百度這個現(xiàn)象很明顯,當(dāng)然對主頁和內(nèi)頁的評級也是不同的這個不多贅述
  他評級的標(biāo)準(zhǔn)就是按 幾次蜘蛛抓取的數(shù)據(jù)分析,數(shù)據(jù)大幅度更新(比較一組數(shù)據(jù),更新量大到一個值的時候)
  舉個很概念的例子:百度標(biāo)準(zhǔn)數(shù)據(jù)更新值如果是7,你頁面蜘蛛抓取第一次和第二次做對比 更新值是3不達(dá)標(biāo),第三次抓取跟第一次對比數(shù)據(jù)更新是8了,OK截取第一次和第三次之間的時間間隔。
  當(dāng)然這個是很籠統(tǒng)的說法,百度要進(jìn)行幾次對比后取個均衡量做評判,這個就不是我們能知道的,但是這樣的一個算法的原理我們知道了
  這樣的做法就是可以讓快照程序有針對性的去更新網(wǎng)站的快照,而不是所有網(wǎng)站不分類別一起更新,這樣對運算的時間和成本節(jié)省不少
  知道有這么個評級之后所有的事情都好辦了,這個評級百度沒有公開,目前也不知道百度對一個網(wǎng)站重新評估 更新 評級的間隔是多少時間
  但是SEO要做的事情如果是讓更新快照的頻率更高的話其實很簡單
  既然我們知道原理了,我們就有針對的操作方法
  第一步 查看你的服務(wù)器日志,了解一下百度蜘蛛對于你的網(wǎng)站頁面抓取的規(guī)律
  第二步 知道蜘蛛對一個頁面抓取的時間間隔之后,列出一個內(nèi)容更新時間表
  第三步 在每相鄰兩次次蜘蛛抓取間隔中更新你的頁面內(nèi)容,集中在這個時間段內(nèi)更新(舉例:比如你本來更新內(nèi)容是10小時,但是這10小時中蜘蛛已經(jīng)來過三次了那么你就要想辦法把這10小時的量更新在一次間隔中盡量壓縮-以上舉的時間只是個例子具體看網(wǎng)站具體情況)能夠頻繁的更新是最好的了
  百度快照的常見問題:
  一、快照不更新。
  問題分析:導(dǎo)入鏈接扇入面積不大,也就是網(wǎng)站的外部鏈接過少;網(wǎng)站長時間不更新或更新沒有規(guī)律;對網(wǎng)站進(jìn)行改版或空間不穩(wěn)定。
  解決辦法:通過對百度快照定義原理的理解,百度只有通過鏈接抓取、索引本站數(shù)據(jù)建立快照的,為百度蜘蛛營造更順暢的多條通路到達(dá)網(wǎng)站就是最好的解決辦法。
  二、快照更新不及時。
  問題分析:和快照不更新問題一樣,但在這里說明的原因是百度的審核機制,會對網(wǎng)站數(shù)據(jù)過濾,甚至人工審核,不排除此情況導(dǎo)致的原因。
  解決辦法:同快照不更新,同時網(wǎng)站內(nèi)部不要出現(xiàn)我國特色的河蟹內(nèi)容。
  三、首頁快照回檔。
  問題分析:對網(wǎng)站進(jìn)行改版或者空間不穩(wěn)定;網(wǎng)站本身或者鏈接網(wǎng)站被K。
  解決辦法:不要經(jīng)常對網(wǎng)站主題或者各項設(shè)置參數(shù)進(jìn)行變動,盡量選擇穩(wěn)定快速的空間服務(wù)商,網(wǎng)站不要頻繁使用非常規(guī)推廣手段,網(wǎng)站內(nèi)容盡量原創(chuàng)實時更新,不要大面積進(jìn)行采集。
  四、刪除快照。
  解決辦法:http://www.baidu.com/search/web_tousu.html#網(wǎng)頁快照處理
  P.S. 百度只保留文本內(nèi)容,所以,那些圖片、音樂等非文本信息,快照頁面還是直接從原網(wǎng)頁調(diào)用。如果您無法連接原網(wǎng)頁,那么快照上的圖片等非文本內(nèi)容,會無法顯示。當(dāng)原網(wǎng)頁進(jìn)行了修改、刪除或者屏蔽后,百度搜索引擎會根據(jù)技術(shù)安排自動修改、刪除或者屏蔽相應(yīng)的網(wǎng)頁快照。
  通過百度快照的觀測,可以確保網(wǎng)站正常的收錄排名,給站長和優(yōu)化推廣人員一項參考指標(biāo)。在實際操作過程中,不乏出現(xiàn)相關(guān)的其他問題,本文不再詳細(xì)講解,但是都可以圍繞搜索引擎運作的原理來尋找根本的原因和解決的辦法。
    百度是SEO的神,它的一舉一動我們都要時刻注意,否則我們的網(wǎng)站就悲劇了,如果知道了它的搜索原理就好辦多了。