亚洲国产综合日韩AV在线|午夜精品视频在线观看一区|亚洲国产精品看片在线观看|av网站手机免费在线观看|综合免费一区二区|a级国产乱理伦片在线观看|在线欧美熟乱视频第一页

亚洲国产综合日韩AV在线|午夜精品视频在线观看一区|亚洲国产精品看片在线观看|av网站手机免费在线观看|综合免费一区二区|a级国产乱理伦片在线观看|在线欧美熟乱视频第一页

合肥做網(wǎng)站,選擇瘋狗科技,專(zhuān)業(yè)、敬業(yè)的合肥網(wǎng)絡(luò )公司
首頁(yè) > 網(wǎng)站SEO優(yōu)化 > 詳情

SEO網(wǎng)絡(luò )優(yōu)化優(yōu)秀爬蟲(chóng)的特性

2017-07-26 16:22:17   來(lái)源:互聯(lián)網(wǎng)   瀏覽:  次
對于不同的應用來(lái)說(shuō),爬蟲(chóng)系統實(shí)現方式可能各異,但是實(shí)用的爬蟲(chóng)系統都應該具備以下幾種特性。

SEO網(wǎng)絡(luò )優(yōu)化優(yōu)秀爬蟲(chóng)的特性

對于不同的應用來(lái)說(shuō),爬蟲(chóng)系統實(shí)現方式可能各異,但是實(shí)用的爬蟲(chóng)系統都應該具備以下幾種特性。

高性能

互聯(lián)網(wǎng)的網(wǎng)頁(yè)數量龐大如海,所以爬蟲(chóng)的性能至關(guān)重要,這里的性能主要是指爬蟲(chóng)下載網(wǎng)頁(yè)的抓取速度,常見(jiàn)的評價(jià)方式是以爬蟲(chóng)每秒能夠下載的網(wǎng)頁(yè)數量作為性能指標,單位時(shí)間能夠下載的網(wǎng)頁(yè)數量越多,則爬蟲(chóng)的性能越高。

要提高爬蟲(chóng)的性能,在設計時(shí)程序訪(fǎng)問(wèn)磁盤(pán)的操作方法及具體實(shí)現時(shí)數據結構的選擇很關(guān)鍵。比如對于待抓取URL隊列和已抓取URL隊列,因為URL數量非常大,不同實(shí)現方式性能表現迥異,所以高效的數據結構對于爬蟲(chóng)性能影響很大。

可擴展性

如上所述,爬蟲(chóng)需要抓取的網(wǎng)頁(yè)數量巨大,即使單個(gè)爬蟲(chóng)的性能很高,要將所有網(wǎng)頁(yè)都下載到本地,仍然需要相當長(cháng)的時(shí)間周期,為了能夠盡可能縮短抓取周期,爬蟲(chóng)系統應該有很好的可擴展性,即很容易通過(guò)增加抓取服務(wù)器和爬蟲(chóng)數量來(lái)達到此目的。

目前實(shí)用的大型網(wǎng)絡(luò )爬蟲(chóng)一定是分布式運行的,即多臺服務(wù)器專(zhuān)做抓取,每臺服務(wù)器部署多個(gè)爬蟲(chóng),每個(gè)爬蟲(chóng)多線(xiàn)程運行,通過(guò)多種方式增加并發(fā)性。對于巨型

的搜索引擎服務(wù)商來(lái)說(shuō),可能還要在全球范圍、不同地域分別部署數據中心,爬蟲(chóng)也被分配到不同的數據中心,這樣對于提高爬蟲(chóng)系統的整體性能是很有幫助的。

健壯性

爬蟲(chóng)要訪(fǎng)問(wèn)各種類(lèi)型的網(wǎng)站服務(wù)器,可能會(huì )遇到很多種非正常情況,比如網(wǎng)頁(yè)HTML編碼不規范,被抓取服務(wù)器突然死機,甚至是爬蟲(chóng)陷阱等。爬蟲(chóng)對各種異常情況能夠正確處理非常重要,否則可能會(huì )不定期停止工作,這是無(wú)法忍受的。

從另外一個(gè)角度來(lái)講,假設爬蟲(chóng)程序在抓取過(guò)程中死掉,或者爬蟲(chóng)所在的服務(wù)器宕機,健壯的爬蟲(chóng)系統應該能夠做到:再次啟動(dòng)爬蟲(chóng)時(shí),能夠恢復之前抓取的內容和數據結構,而不是每次都需要把所有工作完全從頭做起,這也是爬蟲(chóng)健壯性的一種體現。

友好性

爬蟲(chóng)的友好性包含兩方面的含義:一是保護網(wǎng)站的部分私密性,另一是減少被抓取網(wǎng)站的網(wǎng)絡(luò )負載。

爬蟲(chóng)抓取的對象是各種類(lèi)型的網(wǎng)站,對于網(wǎng)站擁有者來(lái)說(shuō),有些內容并不希望被所有人搜索到,所以需要設定協(xié)議,來(lái)告知爬蟲(chóng)哪些內容是不允許抓取的。目前有兩種主流的方法可達此目的:爬蟲(chóng)禁抓協(xié)議和網(wǎng)頁(yè)禁抓標記。

爬蟲(chóng)禁抓協(xié)議(Robot Exclusion Protocol)指的是由網(wǎng)站所有者生成一個(gè)指定的文件robot.txt,并放在網(wǎng)站服務(wù)器的根目錄下,這個(gè)文件指明了網(wǎng)站中哪些目錄下的網(wǎng)頁(yè)是不允許爬蟲(chóng)抓取的。具有友好性的爬蟲(chóng)在抓取該網(wǎng)站的網(wǎng)頁(yè)前,首先要讀取robot.txt文件,對于禁止抓取的網(wǎng)頁(yè)一般不進(jìn)行下載。

圖1-1給出了某個(gè)網(wǎng)站對應的robot.txt文件內容,User-agent字段指出針對哪個(gè)爬蟲(chóng),圖中示例為Google的爬蟲(chóng),而Disallow字段則指出不允許抓取的目錄。

 

 

圖1-1爬蟲(chóng)禁抓協(xié)議

爬蟲(chóng)禁抓協(xié)議一般以目錄為單位,即整個(gè)目錄下的網(wǎng)頁(yè)或內容都不允許被抓取。如果只想讓單個(gè)網(wǎng)頁(yè)不被抓取,該如何做呢?網(wǎng)頁(yè)禁抓標記(Robot METAtag)可在此種場(chǎng)合派上用場(chǎng)。

圖1-2給出了網(wǎng)頁(yè)禁抓標記的示例,即在網(wǎng)頁(yè)的HTML代碼里加入meta name=“robots”標記,content字段指出允許或者不允許爬蟲(chóng)的哪些行為??梢苑譃閮煞N情形,一種是告知爬蟲(chóng)不要索引該網(wǎng)頁(yè)內容,以noindex作為標記;另外一種情形是告知爬蟲(chóng)不要抓取網(wǎng)頁(yè)所包含的鏈接,以nofollow作為標記。通過(guò)這種方式,可以達到對網(wǎng)頁(yè)內容的一種隱私保護。

圖1-2網(wǎng)頁(yè)禁抓標記

遵循以上協(xié)議的爬蟲(chóng)可以被認為是友好的,這是從保護私密性的角度考慮的。另外一種友好性則是,希望爬蟲(chóng)對某網(wǎng)站的訪(fǎng)問(wèn)造成的網(wǎng)絡(luò )負載較低。爬蟲(chóng)一般會(huì )根據網(wǎng)頁(yè)的鏈接連續獲取某網(wǎng)站的網(wǎng)頁(yè),如果爬蟲(chóng)訪(fǎng)問(wèn)網(wǎng)站頻率過(guò)高,會(huì )給網(wǎng)站服務(wù)器造成很大的訪(fǎng)問(wèn)壓力,有時(shí)候甚至會(huì )影響網(wǎng)站的正常訪(fǎng)問(wèn),造成類(lèi)似DOS攻擊的效果,所以為了減少網(wǎng)站的網(wǎng)絡(luò )負載,友好性的爬蟲(chóng)應該在抓取策略部署時(shí)考慮每個(gè)被抓取網(wǎng)站的負載,在盡可能不影響爬蟲(chóng)性能的情況下,減少對單一站點(diǎn)短期內的高頻訪(fǎng)問(wèn)。

久久久久久久无码高潮| 办公室人妻滋味| 欧美精品产品在线观看福利| 亚洲人精品美女久久一品道| 91精品国产乱码久久久久| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产一级做a爱免费观看不卡| 亚洲AV动漫另类卡通精品日韩| 综合久久久久狠狠狠97色| 国产老女人精品视频网站| 亚洲自拍高清免费| 天天草天天干| 亚洲AV午夜福利精品一区二区| 亚欧成人毛片一区二区三区四区| 国产在线不卡免费视频| 中文字幕在线无码手机一区| 天天躁夜夜躁日日躁婷婷| 日韩av电影免费在线播放| 成人免费一区二区三区| 国产免费观看久久黄av| 久久精品国产亚洲AV成人文字| 国产精品福利在线| 丁香五月婷婷综合在线观看| 韩国三级电影中文字幕| 亚洲黄色视频网站在线观看| 成人精品一区二区三区中文字幕| 一本大道香蕉中文日本不卡高清二区| 人人妻人人澡人人爽人人直播精品| 在线播放免费播放av片| 亚洲中文HD无码| 人妻忍着娇喘被中进中出视频| 精品国内综合一区二区| 亚洲人成手机电影网站| 亚洲啪AV永久无码精品放毛片| 亚洲男人的天堂在线播放| 日韩av中文字幕无码一区| 国产欧美日韩综合精品二区| 综合国产免费自拍| 一区二区三区欧美| 十八禁无码免费网站| 精品久久久久久久久久久久久久久| 亚洲 欧美 自拍 偷 三| 一级a一级a爰免费免免丅v| 欧美18一19sex性瑜伽hd| 亚洲精品欧美日韩在线观看| 亚洲AV人无码综合在线观看| 国产精品无码无在线观看| 中文毛片无遮挡高清免费| 中文字幕在线第一页| 中字》蓝光完整版免费在线播放| 狠狠色噜噜狠狠亚洲av| 色88久久久久高潮综合影院| 91在线精品一区二区| 日本sm极度另类视频| 久久99久久99精品免观看软件| 激情综合色综合啪啪五月丁香| 久久天天躁狠狠躁无遮挡| 精品一级毛片a久久久久| 人人做人人澡人人人爽| 欧美性猛交xxxx| 我两腿被同学摸的直流水| 亚洲人精品亚洲人成| 亚洲av无码成人精品区一区| 青青视频国产在线播放| 亚洲色精品图另类图片| 欧美日本久久综合网站点击| 国产哺乳奶水91在线播放| 国产精品你懂的在线播放| 国产伦理精品一区二区三区四区五区| 欧美日本一区二区| 欧美日韩国产丝袜视频在线| 国内精品久久久久精免费| 亚洲国产小视频在线观看| 亚洲欧美成av人在线观看| 日本熟妇人妻xxxx| 亚洲欧美第一页| 99亚洲综合精品| A级大胆欧美人体大胆666| 亚洲精品国产精品| 色欲aⅴ亚洲情无码AV| 自拍日韩亚洲一区在线| 日本高清www午色夜在线观看| 一级欧美在线高清视频| 日韩免费有字幕完整版| 国产精品扒开腿做爽爽A片| 亚洲熟妇无码aV在线观看网址| 亚洲一卡二卡无码在线、| 精品偷自拍另类在线观看| 国产精品美女久久久久久麻豆| 欧美精品一区男女天堂| 在办公室被C到呻吟的动态图| 日本岛国电影天堂久久久| 荡公乱妇蒂芙尼中文字幕| 亚洲视频一区| 亚洲精品日韩在线丰满| 亚洲中文字幕乱码熟女在线| 久久精品国产久精国产| 色欧美片视频在线观看| 日韩一区二区在线视频| 亚洲?v成人在线免费观看| 亚洲一区两区三区四区| 日产区一线二线三av| 国产视频一区在线播放| 亚洲2020天天堂在线观看| 黄色av网站在线免费观看| 在线中文字幕精品色香| 中国少妇乱子伦视频播放| 欧美国产激情二区三区蜜月| 日韩欧美在线一区二区三区| 亚洲AV无码国产成人久久软件| 亚洲天堂免费看片| 国产麻豆剧看黄在线观看| 综合久久国产九一剧情麻豆| 欧美人与动XXXXZ0OZ| 人妻尝试又大又粗久久| 把腿扒开让我添30分钟视频| 91亚洲精品福利在线播放| 日韩欧美综合在线二区三区| 久久亚洲精品成人无码网站| 精品久久精品久久久久| 国产激情精品一区二区| 一个人看的www日本高清视频| 亚洲免费av一区二区| 亚洲av无码成h人动漫无遮| 欧美日韩福利电影一区二区三区四区| 中文字幕欧美日韩一区| 亚洲一区精品无码色成人| 国产精品大胸美女被爆操| 亚洲欧美中文日韩综合| 再深点灬舒服灬太大了网站| 欧美日韩毛片视频一级网站| 亚洲v国产v欧美v久久久久久| 中文字幕系列综合第三页| 中文字幕日产无线码一区| 亚洲国产欧美日韩精品一区二区| 在线a视频成人网站| 免费毛片试看| 亚洲精品欧美精品国产精品| 久久久久免费看黄?级试看| 成人欧美一区二区三区白人| 精品国产一区二区三区久久影院| 欧美日韩日本国产在线观看| 国产精品91久久久久久久久久| 伊人丁香五月在线视频| 中文字幕aa一级毛片| 亚洲中文字幕日韩无码| 国产无套粉嫩白浆在线資源免費看| 精品久久久久久2020中文字幕| 2021韩国三级午夜理论| 中文字幕老视频平台网站| 精品国产av一区二区三区四区入口| 中文字幕2019年最好看的电影| 亚洲乱码国产乱码精品精98| 久久综合热亚洲热国产| 中文字幕亚洲乱码| 被男人添B超爽视频免费| 国产日韩欧美在线观看网站插| 一级毛片在线免费播放| 日本国产一区二区不卡视频| 亚洲国产精品久久久久免费看| 漂亮人妻沦陷按摩2| 综合欧美日韩一区二区国产网站| 亚洲乱码中文字幕小综合| 亚洲А∨精品天堂在线|