AndroidJsoup 研究使用解析网页数据，并将主要信息存储到本地数据库中，方便在电脑上 @codeKK AndroidOpen Source Website

AndroidJsoup

Project Url: ZhuoKeTeam/AndroidJsoup

Introduction: 研究使用解析网页数据，并将主要信息存储到本地数据库中，方便在电脑上查询。

More: Author ReportBugs

Tags:

研究使用解析网页数据，并将主要信息存储到本地数据库中，方便在电脑上查询。

参考资料

jsoup 官网地址

https://jsoup.org/
jsoup Cookbook(中文版)

http://www.open-open.com/jsoup/
jsoup 下载地址

https://jsoup.org/news/

一些小技巧

如果 Readme 看起来排版不美观的话，可以移步到简书上看 http://www.jianshu.com/p/98568b47b6c3

说明

官方文档里已经说的比较清楚，需要的知识点也不多。这里就不再絮叨一步步该怎么使用了，大家参考文档就可以了。下面简单说下需要的知识和一些小技巧。

html 的结构 Docment :整个页面 Element:某一个节点
CSS 选择器 css 里的选择器要熟悉(不熟悉也没关系，还有其他解析的方法)
逻辑思路因为 html 页面通常是各种嵌套，所以头脑要清晰
地址 http://www.open-open.com/jsoup/parsing-a-document.htm 这里是中文文档，通过目录大家可以看出，没有太多难点。

https://jsoup.org/ 这是官方网站

一些小技巧

拿 Chrome 说明

假如我要抓取这个页面的某些数据 https://gupiao.caimao.com/weixin/note/reader/view/53103

抓取画框里的数据，一个 Name，一个预期收益

通用步骤:

在浏览器里按下 F12 查看 html 源码，点击这个按钮，然后点击想要的数据。
看右下角的框里。就是我们需要的 css 选择器语法。
在整个页面的环境下对数据进行分析分析要点:
- 这个语法能不能唯一确定这个数据
- 是否确定的为一个列表型的数据(不单指 ul,il 这样的)
- 在 Jsoup 中的应用
- 应对其他的问题
举例说明

一、Name 数据

进行完通用步骤的前两步后，第三步就要开始了。

首先看这个语法能否唯一确定这个数据，最好的办法是让代码给我们测一下. 因为选择器选择后返回的是 Elements，查看它的 size 就可以确定是否唯一。

Document doc = Jsoup.parse(new URL( "https://gupiao.caimao.com/weixin/note/reader/view/53103"), 6000); Elements elements = doc .body() .select("div#doc_section.doc_section.show_foot > div.user_card.user_masthead > a.clear_fix > p.name > span"); System.out.println(elements.size());

好的，size 为 1，通过

Tip:" > "这个符号的左右是有空格的

唯一确定这个数据后，后面就几乎没问题了。

然后接 first()再取其值:

Element element = doc
                .body()
                .select("div#doc_section.doc_section.show_foot > div.user_card.user_masthead > a.clear_fix > p.name > span")
                .first();
        String text = element.text();
        System.out.println(text);

这样就拿到了第一个数据

二、预期收益

进行分析，还是那个小技巧，把右下角的 css 选择器放进代码中进行查看。

Document doc = Jsoup.parse(new URL( "https://gupiao.caimao.com/weixin/note/reader/view/53103"), 6000); Elements elements=doc.body().select("div#doc_section.doc_section.show_foot > div.note_detail > div.grid > p.font_red"); System.out.println(elements.size());

发现是 2，也就是这个选择语句不能唯一确定数据，那么就要另加分析了

观察数据附近和这个页面。

观察左边这个框，发现我们需要的数据周围有跟他样式相同的，然后看代码，也就是右边的框这个结构是一个大的 div 里包含了三个小的 div，而且他们的 class 值是相同的，前两个里面的 p 标签的 class 值也是相同的。这样我们可以确定，右下角那个选择语句选择的是这两个 p 标签，那么我们需要的是后面的那个，所以在 jsoup 中就可以用 last()来确定，这样就唯一确定了我们需要的数据位置。

Document doc = Jsoup.parse(new URL(
                "https://gupiao.caimao.com/weixin/note/reader/view/53103"),
                6000);
        Element element = doc
                .body()
                .select("div#doc_section.doc_section.show_foot > div.note_detail > div.grid > p.font_red")
                .last();
        String text = element.text();
        System.out.println(text);

Tip:这个数据就属于列表型的，选择器选择后可以用 first()，last()或者 get(int)来选择数据的位置

总结

jsoup 本身不难，就是要勤加分析需要数据在整个页面的环境，以便于确定。拿不准的数据可以放进代码里测一下，再复杂的 html 也都是相同的逻辑。

结束语

哎，前一个多小时写了好长，结果好像没保存还是咋的没能发布出去。又写一遍省去了许多唠叨的地方，整体上还是有点唠叨的，其实就是分析的过程。一篇渣文，希望对你有所帮助。

Apps

Android Developer Tools

Android Developer Tools Pro

About Me

Tools: TimeShining

GitHub: Trinea

Facebook: Dev Tools

AI Daily Digest

Daily AI News & Insights

JSON Format, Support error correction

MD5/SHA Encode, Support batch

Text Process

CSS Format and Compress