1. ホーム
  2. java

[解決済み] 文字列からHTMLタグを削除する

2022-02-19 02:37:13

質問

Java文字列からHTMLを削除する良い方法はありますか?単純な正規表現で

replaceAll("\\<.*?>", "") 

は動作しますが、次のようなものは &amp; は正しく変換されず、2つの角括弧の間の非HTMLは削除されます(すなわち .*? の正規表現が消えます)。

解決方法は?

正規表現ではなく、HTMLパーサーを使用する。これは非常に簡単で Jsoup .

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

Jsoupも サポート カスタマイズ可能なホワイトリストに対して HTML タグを削除することができます。 <b> , <i><u> .

こちらもご覧ください。