[解決済み] Scrapyで次のページをクロールする

2022-02-14 19:32:32

質問

ウェブサイトからデータを取得しようとしているのですが、ページネーションリンクを適切に設定しても、私のスパイダーは次のページにクロールしません。

import scrapy


class NspiderSpider(scrapy.Spider):
    name = "nspider"
    allowed_domains = ["elimelechlab.yale.edu/"]
    start_urls = ["https://elimelechlab.yale.edu/pub"]

    def parse(self, response):
        title = response.xpath(
            '//*[@class="views-field views-field-title"]/span/text()'
        ).extract()
        doi_link = response.xpath(
            '//*[@class="views-field views-field-field-doi-link"]//a[1]/@href'
        ).extract()

        yield {"paper_title": title, "doi_link": doi_link}

        next_page = response.xpath(
            '//*[@title="Go to next page"]/@href'
        ).extract_first()  # extracting next page link

        if next_page:
            yield scrapy.Request(url=response.urljoin(next_page), callback=self.parse)

追記：LinkExtractorは使いたくありません。何か助けがあればありがたいです。

解決方法は？

アイテムの収量が同じ識別レベルにあるため、コードがこれに到達しないだけで、next_pageロジックには何も問題はありません。次の方法を試してみてください。

import scrapy


class NspiderSpider(scrapy.Spider):
    name = "nspider"
    allowed_domains = ["elimelechlab.yale.edu"]
    start_urls = ["https://elimelechlab.yale.edu/pub"]

    def parse(self, response):
        for view in response.css('div.views-row'):
            yield {
                'paper_title': view.css('div.views-field-title span.field-content::text').get(),
                'doi_link': view.css('div.views-field-field-doi-link div.field-content a::attr(href)').get()
            }

        next_page = response.xpath(
            '//*[@title="Go to next page"]/@href'
        ).extract_first()  # extracting next page link

        if next_page:
            yield scrapy.Request(url=response.urljoin(next_page), callback=self.parse)

[解決済み] Scrapyで次のページをクロールする

質問

解決方法は？

関連

ピロウズ画像色処理の具体的な活用方法

opencvとpillowを用いた顔認証システム（デモあり）

Python 人工知能人間学習描画機械学習モデル作成

PythonでECDSAを実装する方法知っていますか？

FacebookオープンソースワンストップサービスpythonのタイミングツールKats詳細

[解決済み] _tkinter.TclError: 表示名がなく、$DISPLAY環境変数もない。

[解決済み】 NameError: グローバル名 'xrange' は Python 3 で定義されていません。

[解決済み】「SyntaxError.Syntax」は何ですか？Missing parentheses in call to 'print'」はPythonでどういう意味ですか？

[解決済み】 AttributeError("'str' object has no attribute 'read'")

[解決済み】django インポートエラー - core.managementという名前のモジュールがない

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

ピローによる動的キャプチャ認識のためのPythonサンプルコード

pyCaret効率化乗算器オープンソースローコード Python機械学習ツール

風力制御におけるKS原理を深く理解するためのpythonアルゴリズム

Pythonショートビデオクローラーチュートリアル

[解決済み】DataFrameのコンストラクタが正しく呼び出されない！エラー

[解決済み】終了コード -1073741515 (0xC0000135)でプロセス終了）

[解決済み】TypeErrorを取得しました。エントリを持つ子テーブルの後に親テーブルを追加しようとすると、 init() missing 1 required positional argument: 'on_delete'

[解決済み】SyntaxError: デフォルト以外の引数がデフォルトの引数に続く

[解決済み】Python - "ValueError: not enough values to unpack (expected 2, got 1)" の修正方法 [閉店].

[解決済み】Flaskのテンプレートが見つからない【重複あり