Javaを使用してPDFのテキストコンテンツを読み取る方法

今回の記事では、JavaアプリケーションでPDFファイルのテキストコンテンツを読み取る方法を紹介します。

JavaアプリケーションでPDFドキュメントを読み取るために、サードパーティのPDFコンポーネントを使用できます。この記事で使用されているコンポーネントは、JAVA用の無料のJava PDFコンポーネントであるFree Spire.PDF for JAVAです。

 

JARファイルの取得とインポート:

公式ウェブサイトからjarファイルパッケージをダウンロードします。ダウンロードした後、ファイルを解凍し、libフォルダー内のSpire.Pdf.jarファイルをJavaプログラムにインポートします。

f:id:uha_noki:20220104121736p:plain

PDFテキスト読み取るコード一覧

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;

public class Extract_Text {

    public static void main(String[] args) {

        //PdfDocumentインスタンスを作成する
       
PdfDocument doc = new PdfDocument();

        //PDFファイルをロードする
       
doc.loadFromFile("C:\\Users\\Administrator\\Desktop\\test.pdf");

        StringBuilder sb = new StringBuilder();

        PdfPageBase page;

        //PDFページをトラバースしてテキストを取得する
       
for (int i = 0; i < doc.getPages().getCount(); i++) {
            page = doc.getPages().get(i);
            sb.append(page.extractText(true));
        }

        FileWriter writer;

        try {
            //テキストファイルにテキストを書き込む
           
writer = new FileWriter("ExtractText.txt");
            writer.write(sb.toString());
            writer.flush();
        } catch (IOException e) {
            e.printStackTrace();
        }
        doc.close();
    }
}

元のPDFドキュメント:

f:id:uha_noki:20220104121751p:plain

エクスポートしたPDFドキュメント:

f:id:uha_noki:20220104121804p:plain

以上はJavaでPDFドキュメントからテキストコンテンツを読み取る方法でした、最後まで読んでいただき誠にありがとうございます。ではまた!