Python之检测XML文件中URL是否存在

 
import os, urllib2,urllib
from xml.dom.minidom import parse

要解析URL中的XMl文件,必须先把这个xml文件下载下来再解析,所以:
def downLoadURL(file_name,URL):
    PATH=os.path.abspath('.')+r'\result'
    dest_dir = os.path.join(PATH, file_name)
    try:
        urllib.urlretrieve(URL, dest_dir)
        print 'saving xml in the:', dest_dir
    except:
        print '\tError retrieving the URL:', dest_dir
#file_name为下载的xml保存的文件名,URL为要解析的xml网址


dom = parse(dest_dir)
root = dom.documentElement
itemlist = root.getElementsByTagName('package')
urls=[]
username = '******' password = '******' values = {'Username': username, 'Password': password}     #对于xml的链接中需要登录的网址,需要填入用户名和密码
for item in itemlist:
    als = item.getAttribute("articleUrl")
    urls.append(als)
url_all=tuple(set(urls))                                  #去除xml中重复的链接网址
for url_each in url_all:  url_each = url_each.encode("utf-8")  if url_each!="":
        try:
            data = urllib.urlencode(values)
            req = urllib2.Request(url_each, data)
            response = urllib2.urlopen(req,timeout=30)
            if response.code == 200:                      #response.code=200则证明这个网址存在
                print 'Exist!'  except urllib2.HTTPError,e:
            print url_each
            print e.code,e.reason












全部评论

相关推荐

来个大佬救一下,为上投了都是石沉大海了,没实习经历的话怕秋招直接进不了面。什么实习这么难找,基本
心态爆炸了:现在正式的岗位都少,实习基本不咋招的,除了大厂,中小企业其实没那么多岗位需求,就算是有,大多都是招一两个廉价劳动力,同时,他们也会希望你一来就能干活的,没时间培训你,就让你了解公司的项目,你了解完就可以开始干活。再者是,很多低质量的实习其实用处没有那么大的。我去年也是找实习找到破防,最后去了一家深圳的小公司实习,工作对我来说很简单,甚至不如我在学校做的项目,秋招的时候,这段实习经历也并没有帮上什么忙,投递简历,依旧非常低的回复率。低回复率是常态,尤其是找实习,找不到,那就把重心放在优化自己的简历和项目,多看八股文,锻炼自己的面试能力,多看别人的面经,自己模拟面试,等秋招的时候,只要有那么寥寥几次,好好抓住那几次机会。
点赞 评论 收藏
分享
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务