亚洲国产成人av影片在线_国产精品中文字幕日韩欧美_单亲乱l仑在线观看免费观看_黄色片A级在线观看_国产三级电影观看_男女污污app好色先生_成年人午夜福利视频播放_国产日韩AV一二三区婷婷_中文字幕aⅴ在线视频_99亚洲综合精品

歡迎光臨華企立方官方網(wǎng)站!
400-289-1189
10年網(wǎng)站建設(shè)經(jīng)驗(服務(wù)上千家客戶) 網(wǎng)絡(luò)營銷策劃能力(成功策劃實施多家企業(yè)) 專業(yè)的服務(wù)團隊(超30人的后臺服務(wù)團隊)
當前位置:首頁 > 新聞資訊
新聞資訊
佛山網(wǎng)絡(luò)推廣告訴你搜索引擎爬蟲研究與爬去原則

發(fā)布者: 華企立方   發(fā)布時間:2017-3-3 9:55:30

我們先來看一下它的定義:網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
從以上的定義來看,百度蜘蛛,谷歌機器人都屬于爬蟲的一種,而爬蟲主要是按照一定的規(guī)則,自動抓取信息的腳本或者程序,這個不難理解,有經(jīng)驗的程序員都能夠獨立的編寫出來一套比較完整的蜘蛛程序,用來收集網(wǎng)絡(luò)信息,充實自己的網(wǎng)站。其實很多的信息采集軟件也是采用了這種技術(shù)。
那么我們在來看一下蜘蛛到底進行的什么工作:

每一種類型的資源,都有相應的蜘蛛爬蟲來搜集,當然解析的方式也各不相同。我們經(jīng)常能夠在網(wǎng)站的日志中看到百度的spider和image-spider,不同的爬蟲利用其自身的規(guī)則來對其頁面進行解析。即使是這樣, 我們也能夠看到爬蟲在爬去頁面的時候還是有一定的規(guī)律性的,這種規(guī)律性則是來自于搜索引擎效率最大化的取舍。
  • 寬度優(yōu)先遍歷原則:這個原則是從網(wǎng)站自身做起的,根據(jù)網(wǎng)站的層級來抓取。因為我們在做網(wǎng)站的時候都有一個優(yōu)先的考慮,比如我第一個想讓搜索引擎看到的就是首頁,其次的各個目錄頁面,再其次就是內(nèi)容頁面,蜘蛛也是利用這一點來抓取。
  • 非完全pagerank排序:這個原則就是利用谷歌的pr值來計算的。因為每一個網(wǎng)頁在谷歌中都會有一個評分,根絕這些評分高低來抓取。如果完全計算就比較耗費計算資源,所以它就采用高pr值的網(wǎng)頁傳遞出來的鏈接肯定都是可靠的。
  • OPIC(online page importance computation在線頁面重要性計算):這一個原則跟pr值計算相差無幾,在采集的網(wǎng)頁中來計算每一個網(wǎng)頁的重要性,然后在進行優(yōu)先抓取。
  • 大站優(yōu)先策略:這個毋庸置疑了。因為大戰(zhàn)比較符合信賴的原則。0 \  c7 W1 |- e5 o
其實我們可以看到,這種原則其實是對抓取的有限性和網(wǎng)頁的無限性的一個折中,即在有限的時間內(nèi)抓取網(wǎng)絡(luò)中更為重要的頁面和資源。當然我們也需要去了解網(wǎng)絡(luò)爬蟲工作的原理,這樣的話更有利于我們?nèi)プ鯯EO優(yōu)化。

文章由:佛山網(wǎng)絡(luò)推廣http://2800kj.cn整理提供



『上一篇新聞』禪城網(wǎng)站推廣告訴你網(wǎng)站制作中靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁哪個好?
『下一篇新聞』佛山推廣網(wǎng)站教你如何做好網(wǎng)站反向鏈接
『返回上一頁』
『返回首頁』

此文關(guān)鍵字:
相關(guān)新聞

掃一掃加關(guān)注

微信公眾號搜索
"佛山華企立方"

服務(wù)熱線:
13702423088
Copyright ? 2015 佛山市華企立方信息科技有限公司 All Rights Reserved .粵ICP備16014130號
咨詢熱線

400-9986-936

13702423088

13119895388

微信咨詢