1. ホーム
  2. パイソン

[解決済み】Pythonを使用してHTMLファイルからテキストを抽出する

2022-04-02 13:13:46

質問

Pythonを使ってHTMLファイルからテキストを抽出したいのですが、どうすればいいですか? ブラウザからテキストをコピーして、メモ帳に貼り付けた場合と本質的に同じ出力が欲しいのです。

正規表現を使うより、もっとしっかりしたものが欲しい。 多くの人がBeautiful Soupを勧めているのを見ましたが、私はそれを使っていくつかの問題を経験しました。 一つは、JavaScriptのソースのような不要なテキストを拾ってしまうことです。 また、HTMLの実体を解釈しないこともあった。 例えば、HTMLソースの'は、テキストではアポストロフィに変換されると思うのですが、まるでブラウザの内容をメモ帳に貼り付けたかのように変換されました。

更新情報 html2text は期待できそうです。HTMLエンティティを正しく処理し、JavaScriptを無視することができます。 しかし、それは正確にプレーンテキストを生成するのではなく、マークダウンを生成し、それをプレーンテキストに変換する必要がある。例やドキュメントはありませんが、コードはきれいに見えます。


関連する質問

どのように解決するのですか?

html2text は、この分野でかなり良い仕事をするPythonのプログラムです。