ai-search PDF 文件处理

本篇文档介绍了如何利用 Apache PDFBox 库对 PDF 文件进行简单处理，即从 PDF 字节数据中提取文本内容。本文主要包括依赖配置、核心代码实现以及使用示例，适用于需要快速解析 PDF 文档内容的场景。

1. 项目依赖

为了使用 PDFBox 进行 PDF 文件处理，需要在 Maven 项目的 pom.xml 中添加以下依赖：

<dependency>
  <groupId>org.apache.pdfbox</groupId>
  <artifactId>pdfbox</artifactId>
  <version>2.0.24</version>
</dependency>

该依赖提供了 PDF 文件解析与文本提取的功能，确保项目能够顺利编译并调用 PDFBox 的相关类库。

2. 代码实现

下面的代码实现展示了如何从 PDF 文件的字节数组中提取文本内容。核心步骤包括将字节数组转换为输入流、加载 PDF 文档、使用 PDFTextStripper 进行文本提取，并对返回的文本做简单处理（如移除无效字符）。

import java.io.ByteArrayInputStream;
import java.io.IOException;
import java.io.InputStream;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

public class PdfUtils {

  /**
   * 从PDF字节数据中提取文本内容
   * @param pdfBytes PDF文件的字节数组
   * @return 提取的文本内容
   * @throws IOException 如果PDF解析失败
   */
  public static String parseContent(byte[] pdfBytes) throws IOException {
    // 将字节数组转换为输入流，并加载PDF文档
    try (InputStream is = new ByteArrayInputStream(pdfBytes); PDDocument document = PDDocument.load(is)) {
      // 创建文本提取器实例
      PDFTextStripper stripper = new PDFTextStripper();
      // 设置按照页面布局排序，确保文本顺序接近原始布局
      stripper.setSortByPosition(true);
      // 保留更多格式信息（如换行、空格等）
      stripper.setAddMoreFormatting(true);
      // 提取文本内容，并移除无效字符
      return stripper.getText(document).replace("\u0000", "");
    }
  }
}

代码解析

输入流转换：利用 ByteArrayInputStream 将 PDF 文件的字节数组转换为输入流，便于后续操作。
加载文档：通过 PDDocument.load 方法加载 PDF 文档，确保资源在使用后自动关闭（try-with-resources）。
文本提取：创建 PDFTextStripper 实例，并调用其 getText 方法获取文档中的文本内容。
格式优化：设置了 setSortByPosition(true) 以保证按照页面布局顺序排序，同时启用了 setAddMoreFormatting(true) 保留更多格式信息，最后移除多余的空字符。

3. 使用示例

下面的示例代码展示了如何通过 HTTP 下载获取 PDF 文件字节数据，并利用上述工具类提取其文本内容：

ByteArrayOutputStream stream = HttpDownloadUtils.download(link, null);
byte[] byteArray = stream.toByteArray();
String content = PdfUtils.parseContent(byteArray);
System.out.println(content);

在该示例中：

使用 HttpDownloadUtils.download 方法下载 PDF 文件，并获取包含 PDF 数据的 ByteArrayOutputStream。
将输出流转换为字节数组后，调用 PdfUtils.parseContent 方法提取 PDF 中的文本内容。
最后，将提取的文本内容输出到控制台，可用于后续文本分析或展示。

4. 总结

本文档介绍了基于 Apache PDFBox 对 PDF 文件进行简单处理的实现方法。通过配置 Maven 依赖、实现核心解析代码及使用示例，可以快速将 PDF 文件内容转换为文本格式。该方案适合需要对大量 PDF 文档进行文本提取、内容分析或全文搜索的场景，同时代码简洁、易于扩展。

以上即为完整的 PDF 文件内容提取文档，希望能对的项目开发有所帮助。