PDFファイルから文字列を抽出してデータベースに登録して全文検索ができないかな~と思っていたら「Poppler」という便利なライブラリがあるということでさっそく使ってみました
インストールしたのはWEBサーバのCentOS6.5です。
元々入っているみたいですがアップデートしておきました。
1.インストール
yum -y install poppler
2.PDFからテキストを抽出
総務省が公開している情報通信の現況というPDFをテキスト変換してみます。
サーバに格納して下記のコマンドを実行
pdftotext ./n4100000.pdf n4100000.txt
出力されたテキストファイルは これ 下記は抜粋です。
第 4章 情報通信産業の動向 第1節 1 情報通信の現況 情報通信産業の経済規模 (1)市場規模(国内生産額) ●情報通信産業の市場規模は、全産業中で最大規模の約 9.0% 平成 23 年の情報通信産業の市場規模(名目国内生産額)は 82.7 兆円で全産業の 9.0%を占めており、情報通 信産業は、全産業の中で最大規模の産業である(図表 4-1-1-1) 。その推移をみると、平成 12 年から平成 17 年 まではほぼ横ばいであったが、平成 20 年以降は他の多くの産業と同様に減少してきた。特にリーマンショック 。 時の平成 21 年に大きく落ち込み、平成 23 年も引き続き減少している*1(図表 4-1-1-2 及び図表 4-1-1-3) 一方、平成 17 年価格による平成 23 年の主な産業の市場規模(実質国内生産額)の推移をみると、情報通信産 業は他の多くの産業と同様に、平成 22 年に増加をしたものの、平成 23 年では減少している(図表 4-1-1-2) 。 情報通信産業の市場規模(実質国内生産額)は平成 23 年時点では前年比 1.7%減少の 97.2 兆円であり、わずか に減少しているが拡大を続けている(図表 4-1-1-3) 。なお、 平成 7 年から平成 23 年までの年平均成長率は 2.7% であった。 図表 4-1-1-1
補足
これ以外にもhtml形式で出力したりするコマンド(pdftohtml)とかいろいろ入っているので使ってみると面白いです。
これでデジタルカタログを作る商売なんかやったら儲かりそうですね