青島網(wǎng)站優(yōu)化之利用爬蟲技術(shù)檢測網(wǎng)頁
在SEO工作過程中,由于項目過多,難免會有些遺漏或錯誤,可能這個頁面忘了填寫標題,那個頁面沒設置關鍵字或描述。但是逐個翻看每個頁面來檢查費工又費時,有什么辦法能夠提高效率和正確率呢?
像愛站、站長工具等都只能針對單個頁面來提取網(wǎng)頁的信息,不能整站進行抓取驗證。
其實我們可以使用非常成熟的爬蟲技術(shù)來輔助我們的工作。
下面介紹一款叫做神箭手的網(wǎng)絡爬蟲工具,只需要編寫簡單的腳本就能抓取所需要監(jiān)控的信息。所使用到的腳本如下所示:
var?configs?=?{
????domains:?["www.abc.com"],
????scanUrls:?["http://www.abc.com/index.html"],
????contentUrlRegexes:?[],
????helperUrlRegexes:?[],?//可留空
????enableProxy:?true,
????interval:?1000,
????fields:?[
????????{
????????????//?其他抽取項
????????????name:?"title",
????????????selector:?"http://head/title/text()"
????????},{
????????????//?其他抽取項
????????????name:?"keywords",
????????????selector:?"http://head/meta[contains(@name,'keywords')]/@content"
????????},{
????????????//?其他抽取項
????????????name:?"description",
????????????selector:?"http://head/meta[contains(@name,'description')]/@content"
????????}
????]
};
var?crawler?=?new?Crawler(configs);
crawler.start();
上述腳本能抓取從"http://www.abc.com/index.html"頁面作為入口能掃描到的所有鏈接頁面的標題、關鍵字和描述信息。
除此之外,您還可以增加更多自動化的檢測。因為神箭手網(wǎng)絡爬蟲支持網(wǎng)頁信息抓取之后的回調(diào)處理,所以可以增加數(shù)據(jù)處理的函數(shù),針對抓取回來的數(shù)據(jù)做進一步的處理。
相關內(nèi)容推薦
最新文章
更多>>0532-88983785 / 0532-68613670
我要優(yōu)化網(wǎng)站