当前位置：首页 > Java

java如何爬虫

2026-03-20 04:30:56Java

Java实现网络爬虫的方法

Java可以通过多种库和框架实现网络爬虫功能，常用的工具包括Jsoup、HttpClient、Selenium等。以下介绍几种主要实现方式。

使用Jsoup进行简单爬取

Jsoup是一款轻量级的HTML解析库，适合处理静态网页内容。通过Jsoup可以方便地获取和解析HTML文档。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JsoupExample {
    public static void main(String[] args) throws Exception {
        String url = "https://example.com";
        Document doc = Jsoup.connect(url).get();
        Elements links = doc.select("a[href]");
        for (Element link : links) {
            System.out.println(link.attr("href"));
        }
    }
}

使用HttpClient处理动态请求

Apache HttpClient更适合处理需要模拟浏览器行为的复杂请求，如POST请求或需要设置Header的情况。

import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class HttpClientExample {
    public static void main(String[] args) throws Exception {
        CloseableHttpClient client = HttpClients.createDefault();
        HttpGet request = new HttpGet("https://example.com");
        CloseableHttpResponse response = client.execute(request);
        String html = EntityUtils.toString(response.getEntity());
        System.out.println(html);
        response.close();
        client.close();
    }
}

结合Selenium处理JavaScript渲染

对于需要执行JavaScript的动态网页，Selenium提供了完整的浏览器自动化解决方案。

import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;

public class SeleniumExample {
    public static void main(String[] args) {
        System.setProperty("webdriver.chrome.driver", "path/to/chromedriver");
        WebDriver driver = new ChromeDriver();
        driver.get("https://example.com");
        String pageSource = driver.getPageSource();
        System.out.println(pageSource);
        driver.quit();
    }
}