PDFをあれこれできるPopplerを使ってみた

PDF Poppler Linux
PDF Poppler

PDFファイルから文字列を抽出してデータベースに登録して全文検索ができないかな~と思っていたら「Poppler」という便利なライブラリがあるということでさっそく使ってみました

インストールしたのはWEBサーバのCentOS6.5です。
元々入っているみたいですがアップデートしておきました。

1.インストール

2.PDFからテキストを抽出

総務省が公開している情報通信の現況というPDFをテキスト変換してみます。

クリックしてn4100000.pdfにアクセス

サーバに格納して下記のコマンドを実行

出力されたテキストファイルは これ 下記は抜粋です。

補足

これ以外にもhtml形式で出力したりするコマンド(pdftohtml)とかいろいろ入っているので使ってみると面白いです。
これでデジタルカタログを作る商売なんかやったら儲かりそうですね

タイトルとURLをコピーしました