网络爬虫系列

【java】微博爬虫（三）：庖丁解牛——HTML结构分析与正则切分

最后更新于：2022-04-01 23:02:31

在上一篇文章中已经通过请求的url地址把html页面爬取下来了，这里分别以网易微博的html和新浪微博的html为例来分析如何提取微博数据。 ##一、网易微博解析** 相比新浪微博的html结构，网易微博的比较容易明显地看出来，也容易找到微博数据。查看其html结构不是网页里右键→“查看网页源代码”，那里的微博正文是以html标签形式显示的，而程序实际请求返回得到的html的微博正文是以json格式，这个在控制台里输出看的很清楚。 ~~~ ';