Spark Dataframeで列のコンテンツ全体を表示するにはどうすればよいですか？

201

Spark-csvを使用してデータをDataFrameにロードしています。簡単なクエリを実行してコンテンツを表示したい：

val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv")
df.registerTempTable("tasks")
results = sqlContext.sql("select col from tasks");
results.show()

colは切り捨てられているようです：

scala> results.show();
+--------------------+
|                 col|
+--------------------+
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-06 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:21:...|
|2015-11-16 07:21:...|
|2015-11-16 07:21:...|
+--------------------+

列のコンテンツ全体を表示するにはどうすればよいですか？

— トレーサー
ソース

372

results.show(20, false)切り捨てられません。ソースを確認する

— TomTom101
ソース

4

@トレーサーそれがあなたの問題を解決するならば、あなたが私の答えを受け入れてくれれば幸いです。ありがとう！

— TomTom101 2015年

3

OPではありませんが、これは確かに正しい答えです。マイナーな修正、ブール値はFalseではなくFalseにする必要があります。

— xv70

77

Pythonでは「False」ですが、scala / javaでは「false」

— drewrobb

4

スパークシェルではfalse（falseではありません）

— Luca Gibelli

5

コンソールモードでストリームに書き込むのと同じdataFrame.writeStream.outputMode("append").format("console").option("truncate", "false").start()

— JMess

38

を入れた場合results.show(false)、結果は切り捨てられません

— ナレンドラパルマー
ソース

2

私はと想像TomTom101の答えにコメントがおよそfalseすぎて、ここで適用されます。

— Mogsdad 2016

1

@Narendra Parmarの構文は次のとおりresults.show(20, False)です。あなたが言及したものはエラーになります。

— Jai Prakash 2017

ジャイプラカシュ@、私はScalaのために、この答えを与えている、あなたは、Pythonの話をしている

— ナレンドラParmar

@NarendraParmarごめんなさい。ではscala、両方のオプションが有効です。results.show(false)およびresults.show(20, false)

— Jai Prakash 2017

17

他のソリューションは良いです。これらがあなたの目標である場合：

列の切り捨てなし、
行の損失なし、
高速かつ
効率的

これらの2行は便利です...

    df.persist
    df.show(df.count, false) // in Scala or 'False' in Python

永続化することで、カウントと表示の2つのエグゼキュータアクションは、エグゼキュータ内の中間の基本的なデータフレーム構造を使用persistまたはcache維持するときに、より高速かつ効率的になります。永続化とキャッシュの詳細をご覧ください。

— コーデック
ソース

1

非常に素晴らしい。ありがとう！

— timbram

15

以下のコードは、各列で切り捨てずにすべての行を表示するのに役立ちます

df.show(df.count(), False)

— MoeChen
ソース

同じ質問私は前の回答者に尋ねました：これdfは2回収集される原因ですか？

— javadba 2018

@javadbaはい、count（）はdfを1回実行し、show（）はdfを2回収集すると思います。

— MoeChen

10

results.show(20, False)またはresults.show(20, false) 、Java / Scala / Pythonで実行しているかどうかに応じて

— ディーパックバブPR
ソース

3

results.show(false) 列の内容全体が表示されます。

メソッドをデフォルトで20に制限して表示し、前falseに数値を追加すると、さらに行が表示されます。

— チェタンタンバラ
ソース

2

このコマンドを試してください：

df.show(df.count())

— epic_last_song
ソース

1

これを試してください：df.show（some no）は機能しますが、df.show（df.count（））は機能しません。

— Thota Kranthi Kumar

使用例df.show（2000）。2000行を取得します

— Thota Kranthi Kumar 2017

2

これはdf2回収集される原因になりますか？

— javadba 2018

2

results.show(20,false) Scalaで私のためにトリックをしました。

— SKA
ソース

1

Databricks内では、データフレームを表形式で視覚化できます。コマンドで：

display(results)

それは次のようになります

— イグナシオ・アロレ
ソース

0

私はプラグインChrome拡張機能を使用してかなりうまくいきます：

[ https://userstyles.org/styles/157357/jupyter-notebook-wide][1]

— 学び続けます
ソース

0

これをscalaで試してください：

df.show(df.count.toInt, false)

showメソッドは整数とブール値を受け入れますが、df.countはLong ...を返すため、型キャストが必要です

— プリテシュ・クマール
ソース

0

c＃ Option("truncate", false)では、出力のデータは切り捨てられません。

StreamingQuery query = spark
                    .Sql("SELECT * FROM Messages")
                    .WriteStream()
                    .OutputMode("append")
                    .Format("console")
                    .Option("truncate", false)
                    .Start();

— バグレイ・ビャチェスラフ
ソース

0

次の回答は、Spark Streamingアプリケーションに適用されます。

「truncate」オプションをfalseに設定すると、列全体を表示するように出力シンクに指示できます。

val query = out.writeStream
          .outputMode(OutputMode.Update())
          .format("console")
          .option("truncate", false)
          .trigger(Trigger.ProcessingTime("5 seconds"))
          .start()

— Farrellw
ソース