数据提取时用xpath还是正则表达式呢
数据提取时用xpath还是正则表达式呢
这篇文章给大家分享的是有关数据提取时用xpath还是正则表达式呢的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
xpath和正则表达式是数据提取时最常用的两种方法,究竟用哪个好呢?
测试代码如下所示,实验目标是同一HTML文档,分别使用webscrpaing库中的xpath,lxml库中的xpath以及正则表达式提取100次,统计各方法的用时:
view plaincopy to clipboardprint?
#coding:utf-8
#xpath_speed_test.py
importre
importtime
fromlxmlimportetree
fromwebscrapingimportcommon,download,xpath
TEST_TIMES=100
deftest():
url='http://hotels.ctrip.com/international/washington26363'
html=download.Download().get(url)
html=common.to_unicode(html)
#测试webscraping库的xpath提取速度
start_time=time.time()
foriinrange(TEST_TIMES):
forhid,hpriceinzip(xpath.search(html,'//div[@class="hlist_item"]/@id'),xpath.search(html,'//div[@class="hlist_item_price"]/span')):
#printhid,hprice
pass
end_time=time.time()
webscraping_xpath_time_used=end_time-start_time
print'"webscraping.xpath"timeused:{}seconds.'.format(webscraping_xpath_time_used)
#测试lxml库xpath提取速度
start_time=time.time()
foriinrange(TEST_TIMES):
root=etree.HTML(html)
forhlist_divinroot.xpath('//div[@class="hlist_item"]'):
hid=hlist_div.get('id')
hprice=hlist_div.xpath('.//div[@class="hlist_item_price"]/span')[].text
#printhid,hprice
pass
end_time=time.time()
lxml_time_used=end_time-start_time
print'"lxml"timeused:{}seconds.'.format(lxml_time_used)
#测试正则表达式的速度
start_time=time.time()
foriinrange(TEST_TIMES):
forhid,hpriceinzip(re.compile(r'class="hlist_item"id="(\d+)"').findall(html),re.compile(r'<divclass="hlist_item_price"><dfn>¥</dfn><span>([\d\.]+)</span>').findall(html)):
#printhid,hprice
pass
end_time=time.time()
re_time_used=end_time-start_time
print'"re"timeused:{}seconds.'.format(re_time_used)
if__name__=='__main__':
test()
运行结果如下:
view plaincopy to clipboardprint?
"webscraping.xpath"timeused:100.677000046seconds.
"lxml"timeused:2.09100008011seconds.
"re"timeused:0.138999938965seconds.
结果很震撼:
正则表达式只用了0.14秒;
lxml的xpath用了2.1秒;
webscraping的xpath用了101秒!
由于xpath简单而且灵活,我们在爬虫开发的时候一般都会首选,但是通过这个实验发现它的效率远低于正则表达式,尤其是webscrpaing库中的xpath速度更是慢得恐怖。
因此,在我们的爬虫开发过程中,应该首选正则表达式,如果用正则表达式实在难于实现,再考虑xpath,另外,在使用xpath的时候一定要选用高效的库,比如lxml。特别是在数据量特别大的时候,效率显得尤为重要。
感谢各位的阅读!关于“数据提取时用xpath还是正则表达式呢”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!
推荐阅读
-
正则指引(第2版)
-
密码格式验证的常用正则表达式有哪些
密码格式验证的常用正则表达式有哪些这篇文章主要为大家展示了“密码格...
-
python爬虫中xpath实例分析
-
正则替换如何实现输入框只能有数字、中英文逗号
正则替换如何实现输入框只能有数字、中英文逗号这篇文章将为大家详细讲...
-
正则表达式匹配原理之逆序环视的示例分析
-
正则如何实现替换换行符和把br替换成换行符
正则如何实现替换换行符和把br替换成换行符这篇文章主要介绍了正则如...
-
如何使用正则匹配电话号手机号邮箱网址
如何使用正则匹配电话号手机号邮箱网址这篇文章主要介绍了如何使用正则...
-
怎么用正则批量去除Teleport Pro整站下载文件冗余代码
-
如何使用正则限制input框只能输入数字/英文/中文等限制
如何使用正则限制input框只能输入数字/英文/中文等限制这篇文章...
-
正则表达式如何实现逆序环视