重要的搜索引擎收集網(wǎng)頁的原理
發(fā)布者: 華企立方 發(fā)布時間:2014-1-22
1.搜索引擎對于網(wǎng)頁數(shù)據(jù)的收集是預(yù)先收集而非在用戶搜索的時候即時收集顯示的,網(wǎng)絡(luò)上龐大的信息量決定了搜索引擎不可能在用戶每次搜索的時候再收集數(shù)據(jù),我們查詢得到的結(jié)果都是搜索引擎預(yù)先處理后放到數(shù)據(jù)庫中的數(shù)據(jù)。
2.蜘蛛負(fù)責(zé)采集網(wǎng)站數(shù)據(jù)但蜘蛛的行為是受程序控制的。搜索引擎的蜘蛛每時每刻都在網(wǎng)絡(luò)上爬行,它的爬行是有規(guī)律性的,搜索引擎會根據(jù)網(wǎng)站的更新規(guī)律來調(diào)度蜘蛛從而提高工作效率,譬如一個天天更新的網(wǎng)站蜘蛛可能會每天都來采集數(shù)據(jù),相反,一個網(wǎng)站如果一周才更新一次,蜘蛛在爬行幾次抓住更新規(guī)律后可能會一周來爬行一次,所以說,有規(guī)律的更新網(wǎng)站更有利于內(nèi)容的收錄和快照更新。
3.搜索引擎收集網(wǎng)頁是從一些種子站點開始的,蜘蛛的爬行必須有一個起點,這些起點就被稱為種子站點,這些站點通常是一些權(quán)重很高的網(wǎng)站,所以說對于一個新站,如果你能在這些網(wǎng)站首頁上留一個鏈接很可能會被妙收的,因為這些站點的權(quán)重高,蜘蛛幾乎每時每刻都來這些網(wǎng)站采集數(shù)據(jù)。
4.搜索引擎有兩種爬行策略:深度優(yōu)先和廣度優(yōu)先。對于不同的站點搜索引擎的爬行策略也是不一樣的,深度優(yōu)先指的是蜘蛛在爬行到一個網(wǎng)站時候順著一個鏈接一直往下采集,譬如首頁-欄目頁-內(nèi)容頁,一直到找不到下級鏈接為止,而蜘蛛在遵循廣度優(yōu)先的時候是一層一層爬行的,先爬完欄目頁才會去抓取內(nèi)容頁。對于新站,搜索引擎往往遵循廣度優(yōu)先的策略,所以說往往首頁,欄目頁先被收錄。
更多資訊來自:
佛山網(wǎng)站建設(shè)http://2800kj.cn
此文關(guān)鍵字: