1. ホーム
  2. python

[解決済み] BeautifulSoupとlxml.html - どちらを選ぶか?重複

2022-01-31 10:41:14

質問

私は、HTMLを解析するプロジェクトに取り組んでいます。

いろいろと探した結果、2つの有力な選択肢が見つかりました。BeautifulSoupとlxml.htmlです。

どちらか一方を選ぶ理由はあるのでしょうか?私は以前XMLのためにlxmlを使用したことがあり、私はそれをより快適に感じるだろうが、しかしBeautifulSoupははるかに一般的であるように思われる。

自分に合う方を使えばいいのはわかっているのですが、個人的に両方の体験談を探していました。

解決方法は?

単純な答えとしては、もしソースが整形式であることを信頼するならば、lxml ソリューションを使用することです。 そうでない場合は、BeautifulSoupを使用します。

編集する

この回答はもう3年前のものですが、Jonathan Vanascoがコメントで述べているように、注目に値します。 BeautifulSoup4 がサポートされるようになりました。 lxml を内部パーサーとして使用することで、パフォーマンスへの影響をほとんど受けることなく BeautifulSoup の高度な機能とインターフェイスを使用することができます。 lxml 私自身は、習慣的にそうしています(笑)。