1. ホーム
  2. scala

[解決済み] RDDの内容を印刷するには?

2022-07-02 20:03:35

質問

コレクションの内容をSparkコンソールに出力しようとしています。

型があるのですが

linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3]

そして、コマンドを使っています。

scala> linesWithSessionId.map(line => println(line))

しかし、これは印刷されます。

res1: org.apache.spark.rdd.RDD[Unit] = MappedRDD[4] at map at :19

RDDをコンソールに書き出したり、ディスクに保存して中身を見るにはどうしたらいいですか?

どのように解決するのですか?

RDDの内容を表示したい場合、一つの方法として collect() :

myRDD.collect().foreach(println)

RDDが何十億行もある場合、それは良いアイデアではありません。使用する take() を使って、プリントアウトするのはほんの少しにしましょう。

myRDD.take(n).foreach(println)