当前位置:首页 > Java

java 爬虫如何运行

2026-03-22 03:49:42Java

Java 爬虫的运行步骤

准备开发环境
确保已安装JDK(Java Development Kit)和集成开发环境(如IntelliJ IDEA或Eclipse)。
添加必要的依赖库,例如Jsoup(用于HTML解析)或HttpClient(用于HTTP请求)。Maven项目中可在pom.xml中添加以下依赖:

<!-- Jsoup依赖 -->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.15.3</version>
</dependency>
<!-- HttpClient依赖 -->
<dependency>
    <groupId>org.apache.httpcomponents</groupId>
    <artifactId>httpclient</artifactId>
    <version>4.5.13</version>
</dependency>

发送HTTP请求
使用HttpClient或Jsoup发送GET/POST请求获取网页内容。示例代码:

java 爬虫如何运行

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class SimpleCrawler {
    public static void main(String[] args) throws Exception {
        String url = "https://example.com";
        Document doc = Jsoup.connect(url).get();
        System.out.println(doc.title());
    }
}

解析HTML内容
通过Jsoup选择器提取目标数据。例如获取页面中所有链接:

java 爬虫如何运行

import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

Elements links = doc.select("a[href]");
for (Element link : links) {
    System.out.println(link.attr("href"));
}

处理动态内容(可选)
若页面依赖JavaScript渲染,需使用Selenium WebDriver或HtmlUnit等工具模拟浏览器行为。示例:

import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;

System.setProperty("webdriver.chrome.driver", "path/to/chromedriver");
WebDriver driver = new ChromeDriver();
driver.get("https://example.com");
String pageSource = driver.getPageSource();
driver.quit();

数据存储
将爬取的数据保存到文件或数据库。例如使用FileWriter写入文本文件:

import java.io.FileWriter;
import java.io.IOException;

try (FileWriter writer = new FileWriter("output.txt")) {
    writer.write(doc.html());
} catch (IOException e) {
    e.printStackTrace();
}

注意事项

  • 遵守目标网站的robots.txt协议,避免高频请求导致IP封禁。
  • 设置合理的请求间隔(如Thread.sleep(1000))以模拟人工操作。
  • 处理异常情况(如超时、404错误)确保程序健壮性。

通过以上步骤,可完成一个基础的Java爬虫实现。根据需求扩展功能,如多线程爬取、代理IP支持等。

标签: 爬虫java
分享给朋友:

相关文章

java如何创建文件

java如何创建文件

使用 File 类创建文件 通过 File 类的 createNewFile() 方法创建文件。此方法返回布尔值,表示文件是否成功创建。 import java.io.File; import ja…

如何删除java

如何删除java

卸载 Java 的步骤 Windows 系统: 打开控制面板,选择“程序和功能”或“卸载程序”,在列表中找到 Java 相关条目(如“Java Runtime Environment”或“Java D…

react如何与java配合

react如何与java配合

React 与 Java 配合的常见方式 React 作为前端框架,通常与 Java 后端通过 RESTful API 或 GraphQL 进行交互。以下是几种常见的配合方式: RESTful AP…

如何查看java版本

如何查看java版本

查看Java版本的命令行方法 在终端或命令提示符中运行以下命令,可以快速查看已安装的Java版本: java -version 输出示例: java version "17.0.1" 20…

如何用java

如何用java

使用Java进行开发 Java是一种广泛使用的编程语言,适用于多种应用场景,包括Web开发、移动应用开发、企业级应用等。以下是Java开发的基本步骤和常见应用场景。 安装Java开发环境 下载并安装…

java如何使用

java如何使用

安装Java开发环境 下载并安装JDK(Java Development Kit),推荐从Oracle官网或OpenJDK获取最新版本。安装完成后配置环境变量,确保JAVA_HOME指向JDK安装路径…