2010年5月6日木曜日
【PHP】PDFからテキストを抜き出すメモ【Python】
何でもPDFで送ってくる人は止めて欲しいです。
Office系のファイルで送るのも控えて欲しいものです。テキストがコピーできるだけ後者の方がほんの少しだけマシでしょうか。
Xpdfに含まれるpdftotextというものを使う方法。
pdftotext:pdfファイルから文字抽出 - 個人的Linux
PDFMinerというPythonライブラリもあります。純Pythonで書かれた PDFパーザとインタプリタ。PDFの解析とテキスト抽出に。 ほぼ PDF-1.7準拠。日本語縦書きと暗号化に対応。
「PDFMiner」を使ってテキストを抽出 - BoxHeadRoom
PythonにはpyPdfというライブラリもあります。
Pure Python PDF to text converter - ActiveState Code
追記:2010/05/09
PHPではライブラリ見つけられませんでした。
php で pdf 内のテキストを抽出するモジュールを作った - 夜の Discovery
以下リンクはpdftotextを「exec」や「system」で実行しています。
PHPで PDFファイルをテキストファイルに変換 - AquaSunネットサービス ブログ
登録 投稿 [Atom]
