python中scrapy重复执行的实现方法

这篇文章给大家分享的是有关python中scrapy重复执行的实现方法的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取

python中scrapy重复执行的实现方法

Scrapy模块:

1、scheduler:用来存放url队列

2、downloader:发送请求

3、spiders:提取数据和url

4、itemPipeline:数据保存

fromtwisted.internetimportreactor,defer
fromscrapy.crawlerimportCrawlerRunner
fromscrapy.utils.logimportconfigure_logging
importtime
importlogging
fromscrapy.utils.projectimportget_project_settings


#在控制台打印日志
configure_logging()
#CrawlerRunner获取settings.py里的设置信息
runner=CrawlerRunner(get_project_settings())

@defer.inlineCallbacks
defcrawl():
whileTrue:
logging.info("newcyclestarting")
yieldrunner.crawl("xxxxx")
#1s跑一次
time.sleep(1)
reactor.stop()

crawl()
reactor.run()

感谢各位的阅读!关于“python中scrapy重复执行的实现方法”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

发布于 2021-05-30 14:09:11
收藏
分享
海报
0 条评论
179
上一篇:SpringBoot基于数据库如何实现定时任务 下一篇:html5中canvas微信海报分享的示例分析
目录

    推荐阅读

    0 条评论

    本站已关闭游客评论,请登录或者注册后再评论吧~

    忘记密码?

    图形验证码