- 頻道總排行
- 百度官方:【鄭重提醒】近期很多網(wǎng)站被判罰的原因在這里
- 淺談?dòng)亚殒溄拥淖饔煤徒粨Q方法
- 淺談分析友好型的網(wǎng)站結(jié)構(gòu)是怎么樣的?
- 運(yùn)營(yíng)一個(gè)新網(wǎng)站項(xiàng)目分四步
- 網(wǎng)站排名好,流量少的原因及解法
- 網(wǎng)站外鏈建設(shè)方法探討
- SEO中關(guān)鍵詞優(yōu)化的一些重點(diǎn)分析
- SEO優(yōu)化方案該怎么寫比較合理?
- 談?wù)勎覍?duì)百度權(quán)重的一些看法
- 360站長(zhǎng)平臺(tái)悄然推出自動(dòng)收錄功能
- 您可能還想了解
- 做北京seo如何選擇北京seo外包外包公司?
- 四川seo關(guān)鍵詞怎么布局才更合理?
- 建設(shè)一個(gè)貴州企業(yè)網(wǎng)站需要多少費(fèi)用呢
- 做青海seo的時(shí)候?yàn)槭裁此咽莿e人在前邊呢
- 非常有效的11個(gè)遼寧SEO技術(shù)和策略
- 廣東網(wǎng)站優(yōu)化的工具有哪些呢
- 鎮(zhèn)江網(wǎng)站建設(shè)解析引擎的優(yōu)化思路
- 做山西seo優(yōu)化百度的優(yōu)化竅門有哪些?
- 毫州seo優(yōu)化的價(jià)格
- SEO優(yōu)化應(yīng)該要避免的四個(gè)操作誤區(qū)
搜索引擎爬蟲(chóng)研究與探討
seo過(guò)程中對(duì)于蜘蛛的渴望是非常迫切的,蜘蛛到底是為什么來(lái)怎么來(lái)的我們很困惑,這里我們簡(jiǎn)單探討一下蜘蛛的來(lái)去,或許對(duì)大家有所幫助。
我們先來(lái)看一下它的定義:網(wǎng)絡(luò)爬蟲(chóng)(又被稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁(yè)追逐者),是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲(chóng)。
從以上的定義來(lái)看,百度蜘蛛,谷歌機(jī)器人都屬于爬蟲(chóng)的一種,而爬蟲(chóng)主要是按照一定的規(guī)則,自動(dòng)抓取信息的腳本或者程序,這個(gè)不難理解,有經(jīng)驗(yàn)的程序員都能夠獨(dú)立的編寫出來(lái)一套比較完整的蜘蛛程序,用來(lái)收集網(wǎng)絡(luò)信息,充實(shí)自己的網(wǎng)站。其實(shí)很多的信息采集軟件也是采用了這種技術(shù)。
那么我們?cè)趤?lái)看一下蜘蛛到底進(jìn)行的什么工作:
每一種類型的資源,都有相應(yīng)的蜘蛛爬蟲(chóng)來(lái)搜集,當(dāng)然解析的方式也各不相同。我們經(jīng)常能夠在網(wǎng)站的日志中看到百度的spider和image-spider,不同的爬蟲(chóng)利用其自身的規(guī)則來(lái)對(duì)其頁(yè)面進(jìn)行解析。即使是這樣, 我們也能夠看到爬蟲(chóng)在爬去頁(yè)面的時(shí)候還是有一定的規(guī)律性的,這種規(guī)律性則是來(lái)自于搜索引擎效率最大化的取舍。
寬度優(yōu)先遍歷原則:這個(gè)原則是從網(wǎng)站自身做起的,根據(jù)網(wǎng)站的層級(jí)來(lái)抓取。因?yàn)槲覀冊(cè)谧鼍W(wǎng)站的時(shí)候都有一個(gè)優(yōu)先的考慮,比如我第一個(gè)想讓搜索引擎看到的就是首頁(yè),其次的各個(gè)目錄頁(yè)面,再其次就是內(nèi)容頁(yè)面,蜘蛛也是利用這一點(diǎn)來(lái)抓取。
非完全pagerank排序:這個(gè)原則就是利用谷歌的pr值來(lái)計(jì)算的。因?yàn)槊恳粋€(gè)網(wǎng)頁(yè)在谷歌中都會(huì)有一個(gè)評(píng)分,根絕這些評(píng)分高低來(lái)抓取。如果完全計(jì)算就比較耗費(fèi)計(jì)算資源,所以它就采用高pr值的網(wǎng)頁(yè)傳遞出來(lái)的鏈接肯定都是可靠的。
OPIC(online page importance computation在線頁(yè)面重要性計(jì)算):這一個(gè)原則跟pr值計(jì)算相差無(wú)幾,在采集的網(wǎng)頁(yè)中來(lái)計(jì)算每一個(gè)網(wǎng)頁(yè)的重要性,然后在進(jìn)行優(yōu)先抓取。
大站優(yōu)先策略:這個(gè)毋庸置疑了。因?yàn)榇髴?zhàn)比較符合信賴的原則。
其實(shí)我們可以看到,這種原則其實(shí)是對(duì)抓取的有限性和網(wǎng)頁(yè)的無(wú)限性的一個(gè)折中,即在有限的時(shí)間內(nèi)抓取網(wǎng)絡(luò)中更為重要的頁(yè)面和資源。當(dāng)然我們也需要去了解網(wǎng)絡(luò)爬蟲(chóng)工作的原理,這樣的話更有利于我們?nèi)プ?a href="http://gongsusy.com" target="_blank" class="keylink">SEO優(yōu)化。
說(shuō)明:本欄目文章整理自互聯(lián)網(wǎng),有侵犯權(quán)益的地方請(qǐng)聯(lián)系站長(zhǎng)刪除。
- 上一篇:搜索引擎一直不收錄怎么辦
- 下一篇:網(wǎng)站外鏈建設(shè)方法探討