2008年4月22日火曜日

 

【PHP】HTMLをテキストに変換する

メモメモ。
検討。果たして穴はないか。


$search = array ("']*?>.*?'si", // javascriptを削除
"'<[¥/¥!]*?[^<>]*?>'si", // htmlタグを削除
"'([¥r¥n])[¥s]+'", // 空白文字を削除
"'&(quot|#34);'i", // HTMLエンティティを置換
"'&(amp|#38);'i",
"'&(lt|#60);'i",
"'&(gt|#62);'i",
"'&(nbsp|#160);'i",
"'&(iexcl|#161);'i",
"'&(cent|#162);'i",
"'&(pound|#163);'i",
"'&(copy|#169);'i",
"'&#(¥d+);'e"); // phpとして評価

$replace = array ("",
"",
"¥¥1",
"¥"",
"&",
"<",
"<",
" ",
chr(161),
chr(162),
chr(163),
chr(169),
"chr(¥¥1)");

$text = preg_replace($search, $replace, $document);

参考

HTMLをテキストに変換する - システム屋日誌

ラベル:


コメント: コメントを投稿

登録 コメントの投稿 [Atom]



この投稿へのリンク:

リンクを作成



<< ホーム

This page is powered by Blogger. Isn't yours?

登録 投稿 [Atom]

Google