这篇文章主要讲解了“如何用Storm来写一个Crawler的工具”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何用Storm来写一个Crawler的工具”吧!
阅读背景:
1: 您可能需要了解基本的爬虫知识。
2:您可能需要对HTTP协议有初步了解。
3:您可能需要对Storm计算的逻辑有初步的了解。
packagecom.digitalpebble.storm.crawler;importbacktype.storm.Config;importbacktype.storm.LocalCluster;importbacktype.storm.StormSubmitter;importbacktype.storm.topology.TopologyBuilder;importbacktype.storm.tuple.Fields;importcom.digitalpebble.storm.crawler.bolt.IPResolutionBolt;importcom.digitalpebble.storm.crawler.bolt.indexing.IndexerBolt;importcom.digitalpebble.storm.crawler.bolt.parser.ParserBolt;importcom.digitalpebble.storm.crawler.fetcher.Fetcher;importcom.digitalpebble.storm.crawler.spout.RandomURLSpout;/***整体爬虫引擎的topology*/publicclassCrawlTopology{publicstaticvoidmain(String[]args)throwsException{TopologyBuilderbuilder=newTopologyBuilder();builder.setSpout("spout",newRandomURLSpout());builder.setBolt("ip",newIPResolutionBolt()).shuffleGrouping("spout");builder.setBolt("fetch",newFetcher()).fieldsGrouping("ip",newFields("ip"));builder.setBolt("parse",newParserBolt()).shuffleGrouping("fetch");builder.setBolt("index",newIndexerBolt()).shuffleGrouping("parse");Configconf=newConfig();conf.setDebug(true);conf.registerMetricsConsumer(DebugMetricConsumer.class);if(args!=null&&args.length>0){conf.setNumWorkers(3);StormSubmitter.submitTopology(args[0],conf,builder.createTopology());}else{conf.setMaxTaskParallelism(3);LocalClustercluster=newLocalCluster();cluster.submitTopology("crawl",conf,builder.createTopology());Thread.sleep(10000);cluster.shutdown();}}}
感谢各位的阅读,以上就是“如何用Storm来写一个Crawler的工具”的内容了,经过本文的学习后,相信大家对如何用Storm来写一个Crawler的工具这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是恰卡编程网,小编将为大家推送更多相关知识点的文章,欢迎关注!
storm实时排序TopN怎么使用
Storm怎么写一个爬虫
Storm怎么写一个爬虫这篇文章主要讲解了“Storm怎么写一个爬...
怎么用Storm IPResolutionBolt写爬虫
怎么用StormIPResolutionBolt写爬虫本篇内容介...
Storm RandomURLSpout怎么使用
StormRandomURLSpout怎么使用本篇内容介绍了“S...
Storm开发细节是什么
Storm的Acker机制是什么
Storm的Acker机制是什么这篇文章主要讲解了“Storm的A...
storm drpc怎么定义
stormdrpc怎么定义本篇内容介绍了“stormdrpc怎...
storm使用要注意哪些点
storm使用要注意哪些点这篇文章主要讲解了“storm使用要注意...
storm topology优化思路是什么
stormtopology优化思路是什么本篇内容主要讲解“sto...
Storm的Grouping有哪些
Storm的Grouping有哪些这篇文章主要介绍“Storm的G...
用户名
密码
记住登录状态 忘记密码?
邮箱
确认密码
我已阅读并同意 用户协议