介紹蜘蛛爬行的三步走
發(fā)布者: 華企立方 發(fā)布時間:2014-6-28
網(wǎng)站進(jìn)行SEO優(yōu)化都是希望被搜索引擎所收錄.就是希望網(wǎng)絡(luò)蜘蛛能爬到自己的網(wǎng)站里收錄信息,吸引蜘蛛爬行自己的網(wǎng)站,對此,
佛山網(wǎng)站建設(shè)認(rèn)為一定要懂得蜘蛛爬行的規(guī)律。
第一步:搜索引擎蜘蛛把頁面url抓取,獲取頁面的url存放在數(shù)據(jù)庫。
第二步:程序?qū)?shù)據(jù)庫中抓取來的內(nèi)容進(jìn)行內(nèi)容提取,分詞建立索引。
第三步:排名程序?qū)?shù)據(jù)庫中索引調(diào)用,計算內(nèi)容頁面的相關(guān)性和權(quán)重值,然后按照一定的格式排列在用戶搜索頁。
詳細(xì)的介紹這三個步驟:
1、搜索引擎又叫做蜘蛛、機(jī)器人,當(dāng)蜘蛛發(fā)現(xiàn)一個頁面時,服務(wù)員會返回頁面的html代碼。當(dāng)搜索引擎爬取一個頁面時一般都是首先訪問網(wǎng)站的robots.txt協(xié)議,在明確網(wǎng)站管理設(shè)置的禁止抓取協(xié)議以后,才對頁面進(jìn)行抓取索引數(shù)據(jù)庫。
2、搜索引擎蜘蛛抓取的時間是:定期抓?。ǜ鶕?jù)每個搜索引擎蜘蛛的更新時間不一樣而異)、增量抓?。ㄔ谠械捻撁嫔献ト「嗟捻撁妫?、分類抓?。ǜ鶕?jù)類目不同而抓取的時間不一樣,例如新聞類的內(nèi)容可以幾個分鐘抓取一次。)
3、蜘蛛程序?qū)ψト〈鎯υ跀?shù)據(jù)庫內(nèi)容的內(nèi)容提取以及分詞建立索引:為了避免重復(fù)抓取搜索引擎蜘蛛會建立一個數(shù)據(jù)庫,在每次抓取頁面的時候分別詳細(xì)的記錄頁面的url,文件大小以及創(chuàng)建日期等。
搜索引擎把抓取來的頁面都存放在數(shù)據(jù)庫中,數(shù)據(jù)庫中的url來源大致有3種途徑:搜索引擎蜘蛛爬取頁面從html解析出來的url,如果沒有訪問過的url就把他放在待訪問數(shù)據(jù)庫,接著回按照重要性抓取更新的資源頁面,如果檢測到已經(jīng)抓取收錄的就會把他刪了。人工手動寫入的url,還有就是站長通過表格提交的url,每一個url都有一個特定的編號。然后對每個url對應(yīng)的頁面進(jìn)行內(nèi)容提取,切詞分詞相關(guān)性建立索引,當(dāng)用戶搜索這個詞的時候,程序會根據(jù)頁面的相關(guān)性,頁面的權(quán)重進(jìn)行合理的排序。
文章來源:http://2800kj.cn
此文關(guān)鍵字: