2010年5月6日木曜日

 

【PHP】PDFからテキストを抜き出すメモ【Python】

何でもPDFで送ってくる人は止めて欲しいです。
Office系のファイルで送るのも控えて欲しいものです。テキストがコピーできるだけ後者の方がほんの少しだけマシでしょうか。

Xpdfに含まれるpdftotextというものを使う方法。

pdftotext:pdfファイルから文字抽出 - 個人的Linux

PDFMinerというPythonライブラリもあります。純Pythonで書かれた PDFパーザとインタプリタ。PDFの解析とテキスト抽出に。 ほぼ PDF-1.7準拠。日本語縦書きと暗号化に対応。

「PDFMiner」を使ってテキストを抽出 - BoxHeadRoom

PythonにはpyPdfというライブラリもあります。

Pure Python PDF to text converter - ActiveState Code
追記:2010/05/09

PHPではライブラリ見つけられませんでした。

php で pdf 内のテキストを抽出するモジュールを作った - 夜の Discovery

以下リンクはpdftotextを「exec」や「system」で実行しています。

PHPで PDFファイルをテキストファイルに変換 - AquaSunネットサービス ブログ

ラベル: , ,


コメント: コメントを投稿

登録 コメントの投稿 [Atom]



この投稿へのリンク:

リンクを作成



<< ホーム

This page is powered by Blogger. Isn't yours?

登録 投稿 [Atom]

Google