在web測試,對網頁中的超鏈接進行測試是最基本的工作,最簡便的方法當然是使用像xenu之類的工具。但它具體是怎么實現的呢?我想也無外乎是通過http協議,根據超鏈接地址,向服務端發送請求,然后根據返回的信息進行判斷連接的狀態。下面是根據這種思路,用python編寫的檢測網頁鏈接連通性的程序。
首先,建立一個示例網頁,其中link1,lin3是不連通的,link2,link4是有效鏈接
使用python進行鏈接檢測,要使用到4個重要模塊,過程就是通過urllib抓取目標網頁的html代碼,然后通過sgmllib模塊解析html,獲取超鏈接的列表。然后使用urlparse解析超鏈接的url,供httplib使用。然后由httplib模塊進行最后的請求及驗證回復的過程。
sgmllib:用于HTML解析,解析出網頁中包含的超鏈接
httplib:用于Http協議的操作
urllib:用于獲取網頁的html代碼
urlparse:解析url地址,把url地址解析成幾個部分。
具體實現代碼如下:
#-×-coding:gb2312-*-
importhttplib,urllib,urlparse
fromsgmllibimportSGMLParser
#解析指定的網頁的html,得到該頁面的超鏈接列表
classURLLister(SGMLParser):
defreset(self):
SGMLParser.reset(self)
self.urls=[]
defstart_a(self,attrs):
href=[vfork,vinattrsifk=='href']
ifhref:
self.urls.extend(href)
#遍歷超鏈接列表,并逐個的發送請求,判斷接收后的代碼,200為正常,其他為不正常
deffetch(host):
usock=urllib.urlopen(host)
parser=URLLister()
parser.feed(usock.read())
uhost=urlparse.urlparse(host)
forurlinparser.urls:
up=urlparse.urlparse(url)
#因為超鏈接有兩種方式:一種是直接的http://......一種是相對路徑,/.../sample.html
#所以要分別處理
ifup.netloc=="":
http=httplib.HTTP(uhost.netloc)
http.putrequest("GET","/"+up.path+"?"+up.params+up.query+up.fragment)
http.putheader("Accept","*/*")
http.endheaders()
else:
http=httplib.HTTP(up.netloc)
http.putrequest("GET",up.path+"?"+up.params+up.query+up.fragment)
http.putheader("Accept","*/*")
http.endheaders()
errcode,errmsg,headers=http.getreply()
iferrcode==200:
printurl,":ok"
else:
printurl,":",errcode
#測試
fetch("http://www.mycheba.com/")
代碼運行的結果:
http://www.mycheba.com/erwerwe.html:404
/sample/lik.html:ok
/sample/lik2.html:404
http://www.mycheba.com/:ok
以上內容為大家介紹了使用python測試網頁中超鏈接的連通性,希望對大家有所幫助,如果想要了解更多Python相關知識,請關注IT培訓機構:千鋒教育。http://www.mycheba.com/