青島網(wǎng)站優(yōu)化之利用爬蟲(chóng)技術(shù)檢測(cè)網(wǎng)頁(yè)

時(shí)間：2016-07-07 13:01 來(lái)源：http://www.lfxmhbkj.com 作者：admin 點(diǎn)擊：4344次

在SEO工作過(guò)程中，由于項(xiàng)目過(guò)多，難免會(huì)有些遺漏或錯(cuò)誤，可能這個(gè)頁(yè)面忘了填寫(xiě)標(biāo)題，那個(gè)頁(yè)面沒(méi)設(shè)置關(guān)鍵字或描述。但是逐個(gè)翻看每個(gè)頁(yè)面來(lái)檢查費(fèi)工又費(fèi)時(shí)，有什么辦法能夠提高效率和正確率呢？

像愛(ài)站、站長(zhǎng)工具等都只能針對(duì)單個(gè)頁(yè)面來(lái)提取網(wǎng)頁(yè)的信息，不能整站進(jìn)行抓取驗(yàn)證。

其實(shí)我們可以使用非常成熟的爬蟲(chóng)技術(shù)來(lái)輔助我們的工作。

下面介紹一款叫做神箭手的網(wǎng)絡(luò)爬蟲(chóng)工具，只需要編寫(xiě)簡(jiǎn)單的腳本就能抓取所需要監(jiān)控的信息。所使用到的腳本如下所示：

var?configs?=?{

????domains:?["www.abc.com"],

????scanUrls:?["http://www.abc.com/index.html"],

????contentUrlRegexes:?[],

????helperUrlRegexes:?[],?//可留空

????enableProxy:?true,

????interval:?1000,

????fields:?[

????????{

????????????//?其他抽取項(xiàng)

????????????name:?"title",

????????????selector:?"http://head/title/text()"

????????},{

????????????//?其他抽取項(xiàng)

????????????name:?"keywords",

????????????selector:?"http://head/meta[contains(@name,'keywords')]/@content"

????????},{

????????????//?其他抽取項(xiàng)

????????????name:?"description",

????????????selector:?"http://head/meta[contains(@name,'description')]/@content"

????????}

????]

};

var?crawler?=?new?Crawler(configs);

crawler.start();

上述腳本能抓取從"http://www.abc.com/index.html"頁(yè)面作為入口能掃描到的所有鏈接頁(yè)面的標(biāo)題、關(guān)鍵字和描述信息。

除此之外，您還可以增加更多自動(dòng)化的檢測(cè)。因?yàn)樯窦志W(wǎng)絡(luò)爬蟲(chóng)支持網(wǎng)頁(yè)信息抓取之后的回調(diào)處理，所以可以增加數(shù)據(jù)處理的函數(shù)，針對(duì)抓取回來(lái)的數(shù)據(jù)做進(jìn)一步的處理。

　　迅優(yōu)傳媒是一家專(zhuān)注于網(wǎng)站優(yōu)化、網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)、網(wǎng)站制作、微信開(kāi)發(fā)的互聯(lián)網(wǎng)科技公司。我們的SEO和SEM工程師針對(duì)客戶的網(wǎng)站及行業(yè)現(xiàn)狀等進(jìn)行深度分析，幫助很多客戶提升了網(wǎng)站排名并完成了互聯(lián)網(wǎng)全平臺(tái)的推廣，為客戶節(jié)省了大筆費(fèi)用，同時(shí)提升了品牌形象、提高了轉(zhuǎn)化率。

(責(zé)任編輯：admin)

標(biāo)簽： 青島網(wǎng)站優(yōu)化 搜索引擎 百度蜘蛛