Pythonのリストフィルタリングデータの説明

2022-01-27 15:09:59

データを扱うとき、次の2つのリストのようなリストフィルタリングによく遭遇します。

上のリストのKEY1を元に、下のリストのデータ、つまり黄色く表示されているデータをフィルタリングします。件数が多くなければ、通常はトラバーサル比較で、単純なロジックで、数行のコードで修正できます。

しかし、リストが何万、何百万、何千万となると、トラバーサルの効率が悪くなる。

まずテスト用のリストを構築する。

order_products = pd.read_csv("order_products__prior.csv")

pandasによるトラバーサル、リストジェネレータ＋フィルタ、マージの効率性を比較します。

products = pd.read_csv("products.csv")

orders = pd.read_csv("orders.csv")

直接探索生成とリスト生成＋フィルタの効率を比較した結果、pandasのマージ効率が最も高いことがわかりました。大きなデータバッチに適しています。

上記コード

aisles = pd.read_csv("aisles.csv")

要約

この記事があなたのお役に立ち、Script Houseの他のコンテンツにもっと注目していただけることを願っています。