重要的搜索引擎收集網(wǎng)頁(yè)的原理
發(fā)布者: 華企立方 發(fā)布時(shí)間:2014-1-22
1.搜索引擎對(duì)于網(wǎng)頁(yè)數(shù)據(jù)的收集是預(yù)先收集而非在用戶搜索的時(shí)候即時(shí)收集顯示的,網(wǎng)絡(luò)上龐大的信息量決定了搜索引擎不可能在用戶每次搜索的時(shí)候再收集數(shù)據(jù),我們查詢(xún)得到的結(jié)果都是搜索引擎預(yù)先處理后放到數(shù)據(jù)庫(kù)中的數(shù)據(jù)。
2.蜘蛛負(fù)責(zé)采集網(wǎng)站數(shù)據(jù)但蜘蛛的行為是受程序控制的。搜索引擎的蜘蛛每時(shí)每刻都在網(wǎng)絡(luò)上爬行,它的爬行是有規(guī)律性的,搜索引擎會(huì)根據(jù)網(wǎng)站的更新規(guī)律來(lái)調(diào)度蜘蛛從而提高工作效率,譬如一個(gè)天天更新的網(wǎng)站蜘蛛可能會(huì)每天都來(lái)采集數(shù)據(jù),相反,一個(gè)網(wǎng)站如果一周才更新一次,蜘蛛在爬行幾次抓住更新規(guī)律后可能會(huì)一周來(lái)爬行一次,所以說(shuō),有規(guī)律的更新網(wǎng)站更有利于內(nèi)容的收錄和快照更新。
3.搜索引擎收集網(wǎng)頁(yè)是從一些種子站點(diǎn)開(kāi)始的,蜘蛛的爬行必須有一個(gè)起點(diǎn),這些起點(diǎn)就被稱(chēng)為種子站點(diǎn),這些站點(diǎn)通常是一些權(quán)重很高的網(wǎng)站,所以說(shuō)對(duì)于一個(gè)新站,如果你能在這些網(wǎng)站首頁(yè)上留一個(gè)鏈接很可能會(huì)被妙收的,因?yàn)檫@些站點(diǎn)的權(quán)重高,蜘蛛幾乎每時(shí)每刻都來(lái)這些網(wǎng)站采集數(shù)據(jù)。
4.搜索引擎有兩種爬行策略:深度優(yōu)先和廣度優(yōu)先。對(duì)于不同的站點(diǎn)搜索引擎的爬行策略也是不一樣的,深度優(yōu)先指的是蜘蛛在爬行到一個(gè)網(wǎng)站時(shí)候順著一個(gè)鏈接一直往下采集,譬如首頁(yè)-欄目頁(yè)-內(nèi)容頁(yè),一直到找不到下級(jí)鏈接為止,而蜘蛛在遵循廣度優(yōu)先的時(shí)候是一層一層爬行的,先爬完欄目頁(yè)才會(huì)去抓取內(nèi)容頁(yè)。對(duì)于新站,搜索引擎往往遵循廣度優(yōu)先的策略,所以說(shuō)往往首頁(yè),欄目頁(yè)先被收錄。
更多資訊來(lái)自:
佛山網(wǎng)站建設(shè)http://2800kj.cn
此文關(guān)鍵字: