当前位置：首页 > Java

java如何获取标签

2026-03-21 14:53:52Java

获取HTML标签的方法

在Java中获取HTML标签通常涉及解析HTML文档，常用的库包括Jsoup、HtmlUnit等。以下是几种常见方法：

使用Jsoup库

Jsoup是一个开源的HTML解析库，可以方便地从HTML中提取数据。

java如何获取标签

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JsoupExample {
    public static void main(String[] args) {
        String html = "<html><head><title>Sample</title></head><body><p>Paragraph 1</p><p>Paragraph 2</p></body></html>";
        Document doc = Jsoup.parse(html);
        Elements paragraphs = doc.select("p");
        for (Element p : paragraphs) {
            System.out.println(p.text());
        }
    }
}

使用HtmlUnit库

HtmlUnit是一个无界面浏览器，可以模拟浏览器行为并获取页面元素。

java如何获取标签

import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlParagraph;

public class HtmlUnitExample {
    public static void main(String[] args) throws Exception {
        try (WebClient webClient = new WebClient()) {
            HtmlPage page = webClient.getPage("http://example.com");
            for (HtmlParagraph p : page.getHtmlElementById("content").getHtmlElementsByTagName("p")) {
                System.out.println(p.getTextContent());
            }
        }
    }
}

使用正则表达式

对于简单的HTML解析需求，可以使用正则表达式，但不推荐用于复杂的HTML文档。

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexExample {
    public static void main(String[] args) {
        String html = "<p>Paragraph 1</p><p>Paragraph 2</p>";
        Pattern pattern = Pattern.compile("<p>(.*?)</p>");
        Matcher matcher = pattern.matcher(html);
        while (matcher.find()) {
            System.out.println(matcher.group(1));
        }
    }
}