亚洲国产综合日韩AV在线|午夜精品视频在线观看一区|亚洲国产精品看片在线观看|av网站手机免费在线观看|综合免费一区二区|a级国产乱理伦片在线观看|在线欧美熟乱视频第一页

亚洲国产综合日韩AV在线|午夜精品视频在线观看一区|亚洲国产精品看片在线观看|av网站手机免费在线观看|综合免费一区二区|a级国产乱理伦片在线观看|在线欧美熟乱视频第一页

合肥做網(wǎng)站,選擇瘋狗科技,專(zhuān)業(yè)、敬業(yè)的合肥網(wǎng)絡(luò )公司
首頁(yè) > 網(wǎng)站SEO優(yōu)化 > 詳情

SEO網(wǎng)絡(luò )優(yōu)化優(yōu)秀爬蟲(chóng)的特性

2017-07-26 16:22:17   來(lái)源:互聯(lián)網(wǎng)   瀏覽:  次
對于不同的應用來(lái)說(shuō),爬蟲(chóng)系統實(shí)現方式可能各異,但是實(shí)用的爬蟲(chóng)系統都應該具備以下幾種特性。

SEO網(wǎng)絡(luò )優(yōu)化優(yōu)秀爬蟲(chóng)的特性

對于不同的應用來(lái)說(shuō),爬蟲(chóng)系統實(shí)現方式可能各異,但是實(shí)用的爬蟲(chóng)系統都應該具備以下幾種特性。

高性能

互聯(lián)網(wǎng)的網(wǎng)頁(yè)數量龐大如海,所以爬蟲(chóng)的性能至關(guān)重要,這里的性能主要是指爬蟲(chóng)下載網(wǎng)頁(yè)的抓取速度,常見(jiàn)的評價(jià)方式是以爬蟲(chóng)每秒能夠下載的網(wǎng)頁(yè)數量作為性能指標,單位時(shí)間能夠下載的網(wǎng)頁(yè)數量越多,則爬蟲(chóng)的性能越高。

要提高爬蟲(chóng)的性能,在設計時(shí)程序訪(fǎng)問(wèn)磁盤(pán)的操作方法及具體實(shí)現時(shí)數據結構的選擇很關(guān)鍵。比如對于待抓取URL隊列和已抓取URL隊列,因為URL數量非常大,不同實(shí)現方式性能表現迥異,所以高效的數據結構對于爬蟲(chóng)性能影響很大。

可擴展性

如上所述,爬蟲(chóng)需要抓取的網(wǎng)頁(yè)數量巨大,即使單個(gè)爬蟲(chóng)的性能很高,要將所有網(wǎng)頁(yè)都下載到本地,仍然需要相當長(cháng)的時(shí)間周期,為了能夠盡可能縮短抓取周期,爬蟲(chóng)系統應該有很好的可擴展性,即很容易通過(guò)增加抓取服務(wù)器和爬蟲(chóng)數量來(lái)達到此目的。

目前實(shí)用的大型網(wǎng)絡(luò )爬蟲(chóng)一定是分布式運行的,即多臺服務(wù)器專(zhuān)做抓取,每臺服務(wù)器部署多個(gè)爬蟲(chóng),每個(gè)爬蟲(chóng)多線(xiàn)程運行,通過(guò)多種方式增加并發(fā)性。對于巨型

的搜索引擎服務(wù)商來(lái)說(shuō),可能還要在全球范圍、不同地域分別部署數據中心,爬蟲(chóng)也被分配到不同的數據中心,這樣對于提高爬蟲(chóng)系統的整體性能是很有幫助的。

健壯性

爬蟲(chóng)要訪(fǎng)問(wèn)各種類(lèi)型的網(wǎng)站服務(wù)器,可能會(huì )遇到很多種非正常情況,比如網(wǎng)頁(yè)HTML編碼不規范,被抓取服務(wù)器突然死機,甚至是爬蟲(chóng)陷阱等。爬蟲(chóng)對各種異常情況能夠正確處理非常重要,否則可能會(huì )不定期停止工作,這是無(wú)法忍受的。

從另外一個(gè)角度來(lái)講,假設爬蟲(chóng)程序在抓取過(guò)程中死掉,或者爬蟲(chóng)所在的服務(wù)器宕機,健壯的爬蟲(chóng)系統應該能夠做到:再次啟動(dòng)爬蟲(chóng)時(shí),能夠恢復之前抓取的內容和數據結構,而不是每次都需要把所有工作完全從頭做起,這也是爬蟲(chóng)健壯性的一種體現。

友好性

爬蟲(chóng)的友好性包含兩方面的含義:一是保護網(wǎng)站的部分私密性,另一是減少被抓取網(wǎng)站的網(wǎng)絡(luò )負載。

爬蟲(chóng)抓取的對象是各種類(lèi)型的網(wǎng)站,對于網(wǎng)站擁有者來(lái)說(shuō),有些內容并不希望被所有人搜索到,所以需要設定協(xié)議,來(lái)告知爬蟲(chóng)哪些內容是不允許抓取的。目前有兩種主流的方法可達此目的:爬蟲(chóng)禁抓協(xié)議和網(wǎng)頁(yè)禁抓標記。

爬蟲(chóng)禁抓協(xié)議(Robot Exclusion Protocol)指的是由網(wǎng)站所有者生成一個(gè)指定的文件robot.txt,并放在網(wǎng)站服務(wù)器的根目錄下,這個(gè)文件指明了網(wǎng)站中哪些目錄下的網(wǎng)頁(yè)是不允許爬蟲(chóng)抓取的。具有友好性的爬蟲(chóng)在抓取該網(wǎng)站的網(wǎng)頁(yè)前,首先要讀取robot.txt文件,對于禁止抓取的網(wǎng)頁(yè)一般不進(jìn)行下載。

圖1-1給出了某個(gè)網(wǎng)站對應的robot.txt文件內容,User-agent字段指出針對哪個(gè)爬蟲(chóng),圖中示例為Google的爬蟲(chóng),而Disallow字段則指出不允許抓取的目錄。

 

 

圖1-1爬蟲(chóng)禁抓協(xié)議

爬蟲(chóng)禁抓協(xié)議一般以目錄為單位,即整個(gè)目錄下的網(wǎng)頁(yè)或內容都不允許被抓取。如果只想讓單個(gè)網(wǎng)頁(yè)不被抓取,該如何做呢?網(wǎng)頁(yè)禁抓標記(Robot METAtag)可在此種場(chǎng)合派上用場(chǎng)。

圖1-2給出了網(wǎng)頁(yè)禁抓標記的示例,即在網(wǎng)頁(yè)的HTML代碼里加入meta name=“robots”標記,content字段指出允許或者不允許爬蟲(chóng)的哪些行為??梢苑譃閮煞N情形,一種是告知爬蟲(chóng)不要索引該網(wǎng)頁(yè)內容,以noindex作為標記;另外一種情形是告知爬蟲(chóng)不要抓取網(wǎng)頁(yè)所包含的鏈接,以nofollow作為標記。通過(guò)這種方式,可以達到對網(wǎng)頁(yè)內容的一種隱私保護。

圖1-2網(wǎng)頁(yè)禁抓標記

遵循以上協(xié)議的爬蟲(chóng)可以被認為是友好的,這是從保護私密性的角度考慮的。另外一種友好性則是,希望爬蟲(chóng)對某網(wǎng)站的訪(fǎng)問(wèn)造成的網(wǎng)絡(luò )負載較低。爬蟲(chóng)一般會(huì )根據網(wǎng)頁(yè)的鏈接連續獲取某網(wǎng)站的網(wǎng)頁(yè),如果爬蟲(chóng)訪(fǎng)問(wèn)網(wǎng)站頻率過(guò)高,會(huì )給網(wǎng)站服務(wù)器造成很大的訪(fǎng)問(wèn)壓力,有時(shí)候甚至會(huì )影響網(wǎng)站的正常訪(fǎng)問(wèn),造成類(lèi)似DOS攻擊的效果,所以為了減少網(wǎng)站的網(wǎng)絡(luò )負載,友好性的爬蟲(chóng)應該在抓取策略部署時(shí)考慮每個(gè)被抓取網(wǎng)站的負載,在盡可能不影響爬蟲(chóng)性能的情況下,減少對單一站點(diǎn)短期內的高頻訪(fǎng)問(wèn)。

午夜精品一区二区三区在线视电影| 日韩人妻无码一区二区三区久久| 亚洲国产精品成人一区| 国产乱子伦免费精品无码| 午夜理论片福利在线观看| 88久久精品无码一区二区毛片| 人妻第一页香蕉网| 国产精久久一区二区三区| 亚洲国产精品一区二区在线观看| 国产伦子系列沙发午睡| 亚洲精品美女久久7777777| 国产一区91| 韩国日本三级在线观看| av无码专区| 中文字幕av无码不卡二区| 亚洲人成电影在线天堂| 久久久久国产一级av片| 欧美色道久久88综合亚洲精品| 99久久夜色精品国产网站| 久久99精品久久久久久琪琪| 人妻丰满av无码久久不卡| 国产精品美女一区二区视频| 精品视频手机免费播放| 日韩不卡在线播放| 亚洲精品国产自在现线最新| 国内精品在线视频一区二区三区| 亚洲精品系列欧美第一页| 亚洲aV无码专区在线电影| 日韩免费一区二区人妻丝袜| 福利小视频在线观看| 插插无码视频大全不卡网站| 国产丝袜在线视频| 亚洲中文字幕在线永久| 久久综合久久爱久久综合伊人| 老外的好大c的我好爽| 久久东京热中文字幕调教| 成人手机在线视频在线观看| 欧美特黄特级91欧美特级特黄| 亚洲综合最新无码2020AV| 精品国产亚洲级一区二区| 国产一级黄色电影| 婷婷综合视频网站| 久久网站热最新地址| 国产SM调教视频在线观看| 一区二区三区电影在线| av无码久久久久不卡网站下载| 亚洲熟妇久久精品| 在线黄色av播放网址| 精品成av人在线观看| 又粗又大又爽的视频| 又黄又爽又色的网站| 欧美日韩成人一区久久| 一级看片免费视频囗交| 亚洲va天堂va欧美ⅴa在线| 免费在线观看成人无码片| 扒开肥白的屁股啪啪| 日本一区二三区区不卡久久| 最新日韩av在线| 日本中文资源在线观看一区二区不卡| 精品国产91久久久久久黄无码| 欧洲熟妇精品视频| 日本一区二区不卡在线| 一区二区视频日韩免费| 亚洲国产欧美日韩一区| 亲女禁忌H够引| 日本大片免a费观看视频| 丝瓜av网站精品一区二区| 亚洲国产另类久久久精品网站| 韩国一级二级三级毛片| 91精品啪在线观看国产色| 毛片网站免费在线观看| 亚洲欧美成人av| 国产精品久久欧美久久一区| 国产精品无码一区免费看| 最新精品露脸国产在线| 国产情侣一区二区| 他扶着粗大挺进了她的紧致视频| www.色小姐| 亚洲视频在线播放高清无码| 91九色 囯产中文字幕| 欧美三级午夜理伦三级| 粉嫩一区二区三区粉嫩视频| 亚洲激情一区| 久久精品国产中国久久| 久久久久无码精品国产AV| 综合激情五月婷婷| 亚洲av片在线观看播放| 欧美亚洲国产日韩精品播放| 国产区图片区小说区亚洲区| 被两个两个黑人吃奶4P| 国产免费午夜A无码V视频| 欧美人禽杂交狂配| 精品日韩一区二区三区| 中国女人真人一级毛片| 亚洲女人国产香蕉久久精品| 国产真实乱子伦精品视频| 国产真人实拍女处实破| 久久久久亚洲av?成人无码网站| 亚洲天堂美女在线av最新| 亚洲乱码精品久久久久| 亚洲视频一区二区三区| 日日噜噜夜夜狠狠久久丁香五月| 在线观看国产日韩亚洲中文字幕| 久久精品无码动漫一区| 国产精品成人AV片免费看| 亚洲欧美高清麻豆综合| 办公室玩弄娇喘秘书在线观看| 天堂а√在线中文在线新版| 亚洲精品国产免费观看久久久| 亚洲日本欧洲国产精品| 啪啪啪小视频| 男女做污污无遮挡激烈免费| 亚洲欧美电影在线一区二区| 一区二区三区精品久久夜夜嗨| 亚洲超清无码制服丝袜下载| 啪啪啪动态图| 国产精品va在线观看无码| 国产精品538一区二区在线| 久久精品国产亚洲AV水果派| 欧美日韩激情三区| 国产成人精品一区二区三区无码| 亚洲精品久久久久中文字幕二区| 亚洲中文字幕天堂av| 爽好舒服快深点作文| 日韩精品无码一本二本三本色| 中文字幕巨大的乳专区| 国产美女一级八a片免费| 香蕉影院在线观看| 亚洲精品在线观看国产| 夜夜爽天天拍天天爽| 午夜久久久久久久久久影院| 精品一区二区在线观看| 日韩一区二区三区国产| 亚洲午夜在线观看| 国产精品日本一区二区不卡视频| 成人手机在线| 国产免费高清在线精品一区| 日日噜噜夜夜狠狠视频| 欧美一区中文字幕| 久久久不卡国产精品一区二区| 中文字幕无码人妻少妇免费| 亚洲专区精品中文字幕| 中文字幕在线视频免费播放| 中文字幕手机在线看片不卡| 精品国产_亚洲人成在线| 日韩欧美一级| 欧美同性猛男gay69| 惩罚高潮求饶哭喊震动h| 极品尤物一区二区三区| 精品久久久无码人妻中文字幕豆芽| 欧美日韩成人高清在线播放| 日韩精品亚洲精品第一页| 欧美亚州国产日韩在线a不卡| 人妻少妇HEYZO无码专区| 亚洲av无码专区成人在线| 国产免费拔擦拔擦8x高清| 国产又色又爽又黄刺激在线视频| 一区二区国产精品免费视频| 国产在线精品一区二区网| 欧美精品与黑人又粗又长| 国产免费丝袜调教视频| 伊人色综合久久天天网蜜月| 欧美一区二区在线播放| 日韩经典三级免费电影|