jsoup Cookbook(中文版)
入门
- 解析和遍历一个html文档
输入
- 解析一个html字符串
- 解析一个body片断
- 根据一个url加载Document对象
- 根据一个文件加载Document对象
数据抽取
- 使用dom方法来遍历一个Document对象
- 使用选择器语法来查找元素
- 从元素集合抽取属性、文本和html内容
- URL处理
- 程序示例:获取所有链接
数据修改
- 设置属性值
- 设置元素的html内容
- 设置元素的文本内容
html清理
- 消除不受信任的html (来防止xss攻击)
Jsoup解析:
import java.io.IOException;import java.text.ParseException;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.select.Elements;/** * @author 亦枫 * @created_time 2016年1月5日 * @file_user_todo Java测试类 * @blog http://www.jianshu.com/users/1c40186e3248/latest_articles */public class JavaTest { /** * 入口函数 * @param args * @throws ParseException */ public static void main(String[] args) throws ParseException { try { //解析Url获取Document对象 Document document = Jsoup.connect("http://www.open-open.com/jsoup/").get(); //获取网页源码文本内容 System.out.println(document.toString()); //获取指定class的内容指定tag的元素 Elements liElements = document.getElementsByClass("content").get(0).getElementsByTag("li"); for (int i = 0; i < liElements.size(); i++) { System.out.println(i + ". " + liElements.get(i).text()); } } catch (IOException e) { System.out.println("解析出错!"); e.printStackTrace(); } }} 解析结果:
Jsoup parse result.png
欢迎订阅作者头条号:技术鸟欢迎关注亦枫微信公众号【技术鸟】,一个有态度的技术型公众号!
技术鸟_微信二维码.gif
