[解決済み] scrapyとpythonを使ったtsetmc.comのウェブページからのウェブスクレイピング

2022-02-14 01:49:58

質問

このウェブページをスクレイピングしたいのですが。 http://www.tsetmc.com/loader.aspx?ParTree=151311&i=42354736493447489

以下は私のコードです。 scrapy shell "http://www.tsetmc.com/loader.aspx?ParTree=151311&i=42354736493447489" で、次の図に示したこの価格を取得したいのです（価格と関連するクロームのインスペクションは図に示されています）。クリックすると画像1が表示されます

そして、次のコードを書きました。 response.xpath('//*[@id="dbp]') , しかし、出力は [ ] . クリックすると画像2が表示されます

少し混乱しています。なぜなら、このウェブサイトから選択したいすべての数字に、このエラーが発生するからです。

どなたか教えていただけると幸いです :)

解決方法は？

使用方法セレン javascriptはscrapyでは実行できないので、javascriptが動的に読み込まれたデータを抽出するために使用します。

from selenium import webdriver
from bs4 import BeautifulSoup
driver = webdriver.Chrome()

driver.get('http://www.tsetmc.com/loader.aspx?ParTree=151311&i=42354736493447489')
time.sleep(5) # delay 5 sec
page_source = driver.page_source

soup = BeautifulSoup(page_source,'html.parser')
# print(soup.prettify())
prices = soup.find('div', {'class': 'box6 h80'}).find('table')

for td in prices.find_all('tr')[1]:
    print(td.getText()) # all td text garbed.

driver.quit()

[解決済み] scrapyとpythonを使ったtsetmc.comのウェブページからのウェブスクレイピング

質問

解決方法は？

関連

ピローによる動的キャプチャ認識のためのPythonサンプルコード

Python 人工知能人間学習描画機械学習モデル作成

PythonはWordの読み書きの変更操作を実装している

Python 入出力と高次代入の基礎知識

[解決済み】ImportError: sklearn.cross_validation という名前のモジュールがない。

[解決済み】Pythonスクリプトで「Expected 2D array, got 1D array instead: 」というエラーが発生？

[解決済み] Pythonの辞書からキーを削除するにはどうしたらいいですか？

[解決済み] なぜC++はPythonよりもstdinからの行の読み込みが遅いのですか？

[解決済み] Pythonでファイル名から拡張子を抽出する

[解決済み] Pythonでパスから拡張子なしでファイル名を取得する方法は？

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

Pythonコンテナのための組み込み汎用関数操作

PicgoのイメージベッドツールをPythonで実装する

Python Pillow Image.save jpg画像圧縮問題

[解決済み】ilocが「IndexError: single positional indexer is out-of-bounds」を出す。

[解決済み】pygame.error: ビデオシステムが初期化されていない

[解決済み】TypeErrorを取得しました。エントリを持つ子テーブルの後に親テーブルを追加しようとすると、 init() missing 1 required positional argument: 'on_delete'

[解決済み】Pythonでgoogle APIのJSONコードを読み込むとエラーになる件

[解決済み】 AttributeError("'str' object has no attribute 'read'")

[解決済み】ValueError: pickleプロトコルがサポートされていません。3、python2 pickleはpython3 pickleでダンプしたファイルを読み込むことができない？

[解決済み] ChromeのデベロッパーツールでJavaScriptを無効にする方法を教えてください。