1. ホーム
  2. コンパイラ言語
  3. その他

エラーの解決方法 ValueError: 入力にNaN、infinity、またはdtype('float64')に対して大きすぎる値が含まれています。

2022-01-22 02:50:39
<パス

この2日間、クレジットカードのデータ分析プロジェクトに取り組んでいるのですが、タイトル+の他にエラーが発生します。
(その
ValueError: サンプル数の一致しない入力変数が見つかりました。[56411, 27785]

この2つのエラーが報告されますが、タイトルの文字数が限られているため、1つしか書き込まれません。では、まず1つ目を取り上げましょう。

上記のエラーレポートに書かれているように エラーの原因 です。
入力データにNaN値または無限大が含まれている
だから 解決方法 : その
列を補完または削除するNaN値を見つける、サンプルデータを縮小する .
そして、まずpandasの describe() および head() プロパティで、データセットがどのように見えるかを確認します。 前者はデータ全体の概要を、後者は最初の数行のデータを直接出力するので、ここでは最初の5行を選んで、以下のコードで見てみましょう。

print(data1.describe())
#dataset overview
print(data1.head(5))
#first 5 lines

  • 1
  • 2
  • 3
  • 4

すると、出力は以下のようになります。


bankCard列のデータが不完全で、NaN値になっていることがわかります。予測モデルの生成に大きな影響を与えないことを考えると、この列は直接削除され、問題は解決しました!

data1.drop(['bankCard'], axis = 1)

  • 1

================================================================================================== 分割線

さて、次は2つ目の問題です。
undefined