当前位置：首页 > Java

java如何爬取

2026-03-26 00:31:32Java

Java爬取网页的方法

使用Java进行网页爬取可以通过多种方式实现，常见的包括使用原生库、第三方库或框架。以下是几种常见的方法：

使用HttpURLConnection

Java原生提供了HttpURLConnection类，可以发送HTTP请求并获取响应内容。适合简单的爬取需求。

URL url = new URL("https://example.com");
HttpURLConnection connection = (HttpURLConnection) url.openConnection();
connection.setRequestMethod("GET");

BufferedReader reader = new BufferedReader(new InputStreamReader(connection.getInputStream()));
String line;
StringBuilder response = new StringBuilder();
while ((line = reader.readLine()) != null) {
    response.append(line);
}
reader.close();
System.out.println(response.toString());

使用Jsoup

Jsoup是一个流行的HTML解析库，支持从URL、文件或字符串中提取数据，并提供DOM遍历和CSS选择器功能。

Document doc = Jsoup.connect("https://example.com").get();
Elements links = doc.select("a[href]");
for (Element link : links) {
    System.out.println(link.attr("href"));
}

使用Apache HttpClient

Apache HttpClient是一个功能更强大的HTTP客户端库，支持更复杂的请求和响应处理。

CloseableHttpClient httpClient = HttpClients.createDefault();
HttpGet request = new HttpGet("https://example.com");
CloseableHttpResponse response = httpClient.execute(request);

HttpEntity entity = response.getEntity();
String result = EntityUtils.toString(entity);
System.out.println(result);

response.close();
httpClient.close();

使用Selenium

对于需要处理动态加载内容的网页，可以使用Selenium模拟浏览器操作。

java如何爬取

WebDriver driver = new ChromeDriver();
driver.get("https://example.com");
WebElement element = driver.findElement(By.tagName("body"));
System.out.println(element.getText());
driver.quit();