public static void getAllLink(String html, String parentUrl) {
Parser parser = new Parser();
try {
parser.setInputHTML(html);
NodeFilter filter = new NodeClassFilter(LinkTag.class);
NodeList nodes = parser.parse(filter);
for (Node node : nodes.toNodeArray()) {
LinkTag linkTag = (LinkTag) node;
String link = linkTag.getLink().trim();
// 过滤,过滤方法可以添加,比如在增加只爬去本域名或本主机名下的网站等等
if (!"".equals(link)) {
//处理一下那些不是以“http://”开头的url,比如以"/html/....或 html/...."开头的
URI uri = new URI(parentUrl);
URI _uri = new URI(uri, link);
String newUrl = _uri.toString();
urls.add(link);
}
}
} catch (ParserException e) {
throw new RuntimeException("htmlparser解析html文件时异常" + e);
} catch (URIException e) {
e.printStackTrace();
}
}
分享到:
相关推荐
可以直接运行。java利用htmlparser抓取网页数据
htmlparser实现从网页上抓取数据
自己写的一个网页抓取例子。抓取国家专利局的专利状态。
htmlparser实现从网页上抓取数据
HTMLParser提取网页超链接研究 HTMLParser提取网页超链接研究
HtmlParser提取网页信息的设计与实现
HTMLParser提取网页内容,提取网页正文及标题等内容
htmlparser进行网页信息的抽取,里边有实例
htmlparser实现从网页上抓取数据doc
很好的pdf讲解htmlparser如何从网页上抓东西,最好有html parser2.0 中文API对着看,不过我没有,大家自己找下
实现从网页上抓取数据.实现从网页上抓取数据.实现从网页上抓取数据.
基于htmlparser的网页爬虫和java调用excel代码,本人爬取新浪新闻所写的爬虫代码,附带本人练习时所写的代码,非常全。而且可以将爬取的新闻内容直接导入到excel中。
关于用java写的htmlparser网页分析
HtmlParser 网页抓取 html转xml html格式转换
Htmlparser jar 包 java 实例
使用htmlparser制作的网页爬虫例题
META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class org.htmlparser.PrototypicalNodeFactory.class org.htmlparser.beans....
Java使用HtmlParser实现简单的网络爬虫,爬虫DEMO,Java 使用 HtmlParser 抓取网页数据并解析以及说明