当前位置:首页 > Java

java如何读word

2026-03-25 12:34:52Java

读取Word文档的方法

在Java中读取Word文档通常使用Apache POI库或docx4j库。以下是两种常用方法的详细说明。

使用Apache POI读取Word文档

Apache POI是Apache基金会提供的开源库,支持读取和写入Microsoft Office格式文件。

添加依赖 在Maven项目中添加以下依赖:

<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi</artifactId>
    <version>5.2.3</version>
</dependency>
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>5.2.3</version>
</dependency>

读取.docx文件

import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFParagraph;
import java.io.FileInputStream;
import java.io.IOException;

public class ReadDocx {
    public static void main(String[] args) throws IOException {
        FileInputStream fis = new FileInputStream("example.docx");
        XWPFDocument document = new XWPFDocument(fis);

        for (XWPFParagraph paragraph : document.getParagraphs()) {
            System.out.println(paragraph.getText());
        }

        document.close();
        fis.close();
    }
}

读取.doc文件

java如何读word

import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;
import java.io.FileInputStream;
import java.io.IOException;

public class ReadDoc {
    public static void main(String[] args) throws IOException {
        FileInputStream fis = new FileInputStream("example.doc");
        HWPFDocument document = new HWPFDocument(fis);
        WordExtractor extractor = new WordExtractor(document);

        System.out.println(extractor.getText());

        document.close();
        fis.close();
    }
}

使用docx4j读取Word文档

docx4j是另一个专门处理Office Open XML格式的Java库。

添加依赖

<dependency>
    <groupId>org.docx4j</groupId>
    <artifactId>docx4j</artifactId>
    <version>11.4.4</version>
</dependency>

读取.docx文件

java如何读word

import org.docx4j.openpackaging.packages.WordprocessingMLPackage;
import org.docx4j.openpackaging.parts.WordprocessingML.MainDocumentPart;
import java.io.File;

public class ReadDocxWithDocx4j {
    public static void main(String[] args) throws Exception {
        WordprocessingMLPackage wordMLPackage = WordprocessingMLPackage.load(new File("example.docx"));
        MainDocumentPart mainDocumentPart = wordMLPackage.getMainDocumentPart();
        System.out.println(mainDocumentPart.getContent());
    }
}

处理Word文档中的表格

使用Apache POI处理Word文档中的表格:

import org.apache.poi.xwpf.usermodel.XWPFTable;
import org.apache.poi.xwpf.usermodel.XWPFTableCell;
import org.apache.poi.xwpf.usermodel.XWPFTableRow;

// 在读取docx的代码中添加
for (XWPFTable table : document.getTables()) {
    for (XWPFTableRow row : table.getRows()) {
        for (XWPFTableCell cell : row.getTableCells()) {
            System.out.print(cell.getText() + "\t");
        }
        System.out.println();
    }
}

注意事项

不同版本的Word文档(.doc和.docx)需要使用不同的类来处理。.docx基于Office Open XML格式,而.doc基于二进制格式。

处理大型Word文档时,可能需要考虑内存使用情况,可以使用事件驱动的解析方式减少内存消耗。

读取Word文档时可能会遇到格式复杂的文档,需要根据实际需求调整解析逻辑。

标签: javaword
分享给朋友:

相关文章

如何删除java

如何删除java

卸载 Java 的步骤 Windows 系统: 打开控制面板,选择“程序和功能”或“卸载程序”,在列表中找到 Java 相关条目(如“Java Runtime Environment”或“Java D…

java如何调用方法

java如何调用方法

调用方法的基本语法 在Java中,调用方法需要明确方法所属的对象(实例方法)或类(静态方法),并传递必要的参数。语法格式如下: 实例方法:对象名.方法名(参数列表); 静态方法:类名…

java如何创建对象

java如何创建对象

创建对象的基本方法 在Java中,创建对象主要通过new关键字调用构造函数完成。基本语法为: ClassName objectName = new ClassName(); 例如创建String对象…

java如何导包

java如何导包

导入包的方法 在Java中,导入包(package)可以通过import语句实现,用于引入其他类或包中的功能。以下是几种常见的导包方式: 导入单个类 import java.util.ArrayL…

java如何实现异步

java如何实现异步

Java实现异步的方法 Java中实现异步编程可以通过多种方式,每种方式适用于不同的场景和需求。以下是常见的实现方法: 使用Thread类 创建新线程执行异步任务是最基础的方式。通过继承Thread…

java如何遍历map

java如何遍历map

遍历Map的几种方法 在Java中,遍历Map有多种方式,可以根据需求选择合适的方法。以下是常见的几种遍历方式: 使用entrySet遍历 通过entrySet()方法获取键值对的集合,可以同时访问…