Java使用httpRequest+Jsoup爬取红蓝球号码
Java使用httpRequest+Jsoup爬取红蓝球号码,恰卡网带你了解更多相关信息。
目录
- 1、Jsoup介绍
- 1.1、简介
- 1.2、Jsoup的主要功能
- 2、源网站及页面元素分析
- 2.1、号码源
- 2.2、dom元素分析
- 3、代码实现
1、Jsoup介绍
1.1、简介
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
1.2、Jsoup的主要功能
1、从一个URL,文件或字符串中解析HTML
2、使用DOM或CSS选择器来查找、取出数据
3、可操作HTML元素、属性、文本
注意:jsoup是基于MIT协议发布的,可放心使用于商业项目。
2、源网站及页面元素分析
2.1、号码源
首先,这里我选择近年来比较稳定的数据源地址【某网站】截图如下
2.2、dom元素分析
2.2.1、开奖号码主体分析
先打开开发者工具,找到每条开奖号码对应的dom元素
可以看到每一期号码信息主体在一个
2021-06-13 2021065 01 04 08 19 29 33 16 362,527,724 3 82
2.2.2、页码区域分析
由于我们爬取数据的时候,需要进行翻页操作,所以这里还需要分析翻页部分的内容,继续在开发者工具中,定位页码区域
可以看到页码部分是
标签中
可以拆分为多个
/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=页码
或
/zhcw/html/ssq/list_页码.html
元素 | 含义 |
---|---|
0 | 总页数 |
1 | 总记录数 |
2 | 第一页的连接 |
3 | 上一页的链接 |
4 | 下一页的链接 |
5 | 最后一页的连接 |
6 | 当前页数 |
3、代码实现
maven引用,这里使用的是Jsoup1.13.1版本
org.jsoup jsoup 1.13.1
这使用的是基于jeecg开发的Job,搭建过程不赘述了,直接看主体代码。
public void execute(JobExecutionContext arg0) throws JobExecutionException { Integer maxPage=getMaxPage();//获取总页数 for(int pageNo=0;pageNo0)break; LotterySsqKjjlEntity kjhmEntiry=new LotterySsqKjjlEntity(); Elements kjhm=tds.get(2).getElementsByTag("em"); kjhmEntiry.setSsqKjrq(sdf.parse(kjrq)); kjhmEntiry.setSsqKjqh(kjqh); kjhmEntiry.setSsqR1(Integer.parseInt(kjhm.get(0).text())); kjhmEntiry.setSsqR2(Integer.parseInt(kjhm.get(1).text())); kjhmEntiry.setSsqR3(Integer.parseInt(kjhm.get(2).text())); kjhmEntiry.setSsqR4(Integer.parseInt(kjhm.get(3).text())); kjhmEntiry.setSsqR5(Integer.parseInt(kjhm.get(4).text())); kjhmEntiry.setSsqR6(Integer.parseInt(kjhm.get(5).text())); kjhmEntiry.setSsqB1(Integer.parseInt(kjhm.get(6).text())); lotterySsqKjjlService.save(kjhmEntiry); } catch (ParseException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (Exception e) { // TODO Auto-generated catch block e.printStackTrace(); } } } } private Integer getMaxPage(){ String url = "http://kaijiang.zhcw.com/zhcw/html/ssq/list.html"; String html = JwtHttpUtil.httpRequest(url, "GET",null); Document doc = Jsoup.parse(html); Document docPageBar= Jsoup.parse(doc.getElementsByClass("pg").toString()); Elements elePageBar = docPageBar.getElementsByTag("strong"); Integer maxPageNo=Integer.parseInt(elePageBar.get(0).text()); return maxPageNo; }
以下是执行完成的部分数据截图
拉取到基础数据后,我们可以再写一个job,去计算出每期开奖号码的指标,可以进行奖号分析,预测等。
这里简单实现了部分分析指标的计算,以下是主体代码。
public void run(){ Listlist= lotterySsqKjjlService.findByQueryString("from LotterySsqKjjlEntity t"); for(int i=0;i t =new ArrayList (); t.add(kjjg.getSsqR1()); t.add(kjjg.getSsqR2()); t.add(kjjg.getSsqR3()); t.add(kjjg.getSsqR4()); t.add(kjjg.getSsqR5()); t.add(kjjg.getSsqR6()); Integer result=0; switch (opType) { case "jsCnt": case "osCnt": int jsgs=0; int osgs=0; for(int i=0;i 至此,这个简单的爬虫就写完了,可以利用爬过来的这些基础数据,进行一些数据分析,预测。
到此这篇关于Java使用httpRequest+Jsoup爬取红蓝球号码的文章就介绍到这了,更多相关Java 爬取红蓝球号码内容请搜索趣讯吧以前的文章或继续浏览下面的相关文章希望大家以后多多支持趣讯吧!
推荐阅读
-
java fileinputstream中文乱码如何解决
javafileinputstream中文乱码如何解决今天小编给...
-
java实现点赞功能
-
java实现简单点赞功能
-
java实现收藏功能
-
java输入空行结束问题怎么解决
-
Java线程中常用的操作有哪些
-
java输入时怎么通过回车来结束输入
java输入时怎么通过回车来结束输入这篇文章主要介绍“java输入...
-
Java数据结构之线索化二叉树怎么实现
Java数据结构之线索化二叉树怎么实现这篇文章主要介绍“Java数...
-
Java中的泛型怎么理解
Java中的泛型怎么理解本篇内容介绍了“Java中的泛型怎么理解”...
-
Java字符串编码解码性能怎么提升
Java字符串编码解码性能怎么提升这篇“Java字符串编码解码性能...