プログラミング hdfs

14

私はスパークでCSVを読み取り、それをDataFrameとして変換し、HDFSに保存したいと思います df.registerTempTable("table_name") 私が試してみました： scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") 私が得たエラー： java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:277) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:276) at scala.collection.parallel.mutable.ParArray$Map.leaf(ParArray.scala:658) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply$mcV$sp(Tasks.scala:54) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:53) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:53) at scala.collection.parallel.Task$class.tryLeaf(Tasks.scala:56) at scala.collection.parallel.mutable.ParArray$Map.tryLeaf(ParArray.scala:650) at …

140 scala apache-spark hadoop apache-spark-sql hdfs

3

他のフォーマットと比較した寄木細工のフォーマットの長所と短所は何ですか？

Apache Parquetの特徴は次のとおりです。自己記述カラムナー形式言語に依存しない Avro、Sequence Files、RC Fileなどと比較して、フォーマットの概要を知りたい。私はすでに読んでいます：ImpalaがHadoopファイル形式でどのように機能するか、それは形式に関するいくつかの洞察を提供しますが、データへのアクセスとデータのストレージがこれらの各形式でどのように行われるかを知りたいです。寄木細工は他のものよりどのように有利ですか？

136 file hadoop hdfs avro parquet

8

HDFSからローカルファイルシステムにファイルをコピーする方法

HDFSからローカルファイルシステムにファイルをコピーする方法。ファイルの下にファイルの物理的な場所はなく、ディレクトリもありません。さらに検証するために、それらをローカルに移動するにはどうすればよいですか。winscpを試してみました。

135 hadoop copy hdfs

6

HBaseとHadoop / HDFSの違い

これは素朴な質問ですが、私はNoSQLパラダイムに不慣れで、あまり詳しくありません。それで、誰かがHBaseとHadoopの違いを明確に理解するのを助けることができるか、または違いを理解するのに役立つかもしれないいくつかの指針を与えるなら。今まで、私はいくつかの研究とaccを行いました。私の理解では、HadoopはHDFSでデータ（ファイル）の生のチャンクを処理するフレームワークを提供し、HBaseはHadoop上のデータベースエンジンであり、基本的に生のデータチャンクではなく構造化データを処理します。Hbaseは、SQLと同じように、HDFS上の論理レイヤーを提供します。それが正しいか？ Plsは私を自由に修正してください。ありがとう。

130 hadoop nosql hbase hdfs difference

9

名前ノードはセーフモードです。出られない

root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/t. Name node is in safe mode. hdfsで何も作成できないやった root# bin/hadoop fs -safemode leave しかし、示しています safemode: Unknown command 何が問題ですか？解決

122 hadoop hdfs

6

Hadoopはどのようにしてレコードをブロック境界にまたがって処理しますか？

による Hadoop - The Definitive Guide FileInputFormatsが定義する論理レコードは、通常、HDFSブロックにきちんと適合しません。たとえば、TextInputFormatの論理レコードは線であり、HDFSの境界を越える頻度が高くなります。これは、プログラムの機能には影響しません。たとえば、行が失われたり壊れたりすることはありません。ただし、データローカルマップ（つまり、ローカルの同じホストで実行されているマップ）入力データ）は、いくつかのリモート読み取りを実行します。これが引き起こすわずかなオーバーヘッドは、通常は重要ではありません。レコード行が2つのブロック（b1とb2）に分割されているとします。最初のブロック（b1）を処理するマッパーは、最後の行にEOLセパレータがないことに気づき、次のデータブロック（b2）から行の残りをフェッチします。 2番目のブロック（b2）を処理するマッパーは、最初のレコードが不完全であり、ブロック（b2）の2番目のレコードから処理を開始する必要があるとどのように判断しますか？

119 hadoop split mapreduce block hdfs

9

Map Reduceプログラミングのリデューサーでシャッフルとソートのフェーズの目的は何ですか？

Map Reduceプログラミングでは、reduceフェーズはそのサブパートとしてシャッフル、ソート、reduceを行います。並べ替えはコストのかかる作業です。 Map Reduceプログラミングのリデューサーでシャッフルとソートのフェーズの目的は何ですか？

113 sorting hadoop mapreduce hdfs shuffle

6

「hadoop fs」シェルコマンドと「hdfs dfs」シェルコマンドの違いは何ですか？

彼らは等しいはずですか？しかし、「hadoop fs」コマンドが「」コマンドを表示するのに、hdfs files「hdfs dfs」コマンドがローカルファイルを表示するのはなぜですか。こちらがhadoopのバージョン情報です： Hadoop 2.0.0-mr1-cdh4.2.1 Subversion git：//ubuntu-slave07.jenkins.cloudera.com/var/lib/jenkins/workspace/CDH4.2.1-Packaging-MR1/build/cdh4/mr1/2.0.0 -mr1-cdh4.2.1 / source -r jenkinsによりコンパイルされ、2013年4月22日10:48:26 PDT

109 hadoop hdfs

10

HDFSディレクトリのサイズを確認する方法は？

私du -shは一般的なLinuxファイルシステムで知っています。しかし、HDFSでそれを行う方法は？

96 hadoop command-line directory hdfs

タグ付けされた質問 「hdfs」

タグ付けされた質問「hdfs」