[解決済み】Pythonを使用してHTMLファイルからテキストを抽出する

2022-04-02 13:13:46

質問

Pythonを使ってHTMLファイルからテキストを抽出したいのですが、どうすればいいですか？ブラウザからテキストをコピーして、メモ帳に貼り付けた場合と本質的に同じ出力が欲しいのです。

正規表現を使うより、もっとしっかりしたものが欲しい。多くの人がBeautiful Soupを勧めているのを見ましたが、私はそれを使っていくつかの問題を経験しました。一つは、JavaScriptのソースのような不要なテキストを拾ってしまうことです。また、HTMLの実体を解釈しないこともあった。例えば、HTMLソースの'は、テキストではアポストロフィに変換されると思うのですが、まるでブラウザの内容をメモ帳に貼り付けたかのように変換されました。

更新情報 html2text は期待できそうです。HTMLエンティティを正しく処理し、JavaScriptを無視することができます。しかし、それは正確にプレーンテキストを生成するのではなく、マークダウンを生成し、それをプレーンテキストに変換する必要がある。例やドキュメントはありませんが、コードはきれいに見えます。

どのように解決するのですか？

html2text は、この分野でかなり良い仕事をするPythonのプログラムです。

[解決済み】Pythonを使用してHTMLファイルからテキストを抽出する

質問

どのように解決するのですか？

関連

[解決済み】ImportError: sklearn.cross_validation という名前のモジュールがない。

[解決済み] ファイルのコピー方法について教えてください。

[解決済み] Pythonでファイルやフォルダを削除する方法は？

[解決済み] Pythonの辞書からキーを削除するにはどうしたらいいですか？

[解決済み] CSSでテキストや画像の背景を透明にするには？

[解決済み] なぜC++はPythonよりもstdinからの行の読み込みが遅いのですか？

[解決済み] HTMLページからのリダイレクト

[解決済み] Pythonでファイル名から拡張子を抽出する

[解決済み] Sublime Text 2を使ってHTMLコードを再フォーマットするにはどうしたらいいですか？

[解決済み】文字列をテキストファイルに出力する

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

Pythonコンテナのための組み込み汎用関数操作

Python機械学習Githubが8.9Kstarsに達したモデルインタープリタLIME

pyCaret効率化乗算器オープンソースローコード Python機械学習ツール

Pythonの@decoratorsについてまとめてみました。

[解決済み】RuntimeWarning: invalid value encountered in double_scalars で numpy の除算ができない。

[解決済み】numpy: true_divide で無効な値に遭遇

[解決済み】ImportError: PILという名前のモジュールがない

[解決済み】 AttributeError("'str' object has no attribute 'read'")

[解決済み] TypeError: 'DataFrame' オブジェクトは呼び出し可能ではない

[解決済み】django インポートエラー - core.managementという名前のモジュールがない