タグ付けされた質問 「hdfs」

14
Spark-CSVファイルをDataFrameとしてロードしますか?
私はスパークでCSVを読み取り、それをDataFrameとして変換し、HDFSに保存したいと思います df.registerTempTable("table_name") 私が試してみました: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") 私が得たエラー: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:277) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:276) at scala.collection.parallel.mutable.ParArray$Map.leaf(ParArray.scala:658) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply$mcV$sp(Tasks.scala:54) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:53) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:53) at scala.collection.parallel.Task$class.tryLeaf(Tasks.scala:56) at scala.collection.parallel.mutable.ParArray$Map.tryLeaf(ParArray.scala:650) at …

3
他のフォーマットと比較した寄木細工のフォーマットの長所と短所は何ですか?
Apache Parquetの特徴は次のとおりです。 自己記述 カラムナー形式 言語に依存しない Avro、Sequence Files、RC Fileなどと比較して、フォーマットの概要を知りたい。私はすでに読んでいます:ImpalaがHadoopファイル形式でどのように機能するか、それは形式に関するいくつかの洞察を提供しますが、データへのアクセスとデータのストレージがこれらの各形式でどのように行われるかを知りたいです。寄木細工は他のものよりどのように有利ですか?
136 file  hadoop  hdfs  avro  parquet 


6
HBaseとHadoop / HDFSの違い
これは素朴な質問ですが、私はNoSQLパラダイムに不慣れで、あまり詳しくありません。それで、誰かがHBaseとHadoopの違いを明確に理解するのを助けることができるか、または違いを理解するのに役立つかもしれないいくつかの指針を与えるなら。 今まで、私はいくつかの研究とaccを行いました。私の理解では、HadoopはHDFSでデータ(ファイル)の生のチャンクを処理するフレームワークを提供し、HBaseはHadoop上のデータベースエンジンであり、基本的に生のデータチャンクではなく構造化データを処理します。Hbaseは、SQLと同じように、HDFS上の論理レイヤーを提供します。それが正しいか? Plsは私を自由に修正してください。 ありがとう。
130 hadoop  nosql  hbase  hdfs  difference 

9
名前ノードはセーフモードです。出られない
root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/t. Name node is in safe mode. hdfsで何も作成できない やった root# bin/hadoop fs -safemode leave しかし、示しています safemode: Unknown command 何が問題ですか? 解決
122 hadoop  hdfs 

6
Hadoopはどのようにしてレコードをブロック境界にまたがって処理しますか?
による Hadoop - The Definitive Guide FileInputFormatsが定義する論理レコードは、通常、HDFSブロックにきちんと適合しません。たとえば、TextInputFormatの論理レコードは線であり、HDFSの境界を越える頻度が高くなります。これは、プログラムの機能には影響しません。たとえば、行が失われたり壊れたりすることはありません。ただし、データローカルマップ(つまり、ローカルの同じホストで実行されているマップ)入力データ)は、いくつかのリモート読み取りを実行します。これが引き起こすわずかなオーバーヘッドは、通常は重要ではありません。 レコード行が2つのブロック(b1とb2)に分割されているとします。最初のブロック(b1)を処理するマッパーは、最後の行にEOLセパレータがないことに気づき、次のデータブロック(b2)から行の残りをフェッチします。 2番目のブロック(b2)を処理するマッパーは、最初のレコードが不完全であり、ブロック(b2)の2番目のレコードから処理を開始する必要があるとどのように判断しますか?
119 hadoop  split  mapreduce  block  hdfs 

9
Map Reduceプログラミングのリデューサーでシャッフルとソートのフェーズの目的は何ですか?
Map Reduceプログラミングでは、reduceフェーズはそのサブパートとしてシャッフル、ソート、reduceを行います。並べ替えはコストのかかる作業です。 Map Reduceプログラミングのリデューサーでシャッフルとソートのフェーズの目的は何ですか?

6
「hadoop fs」シェルコマンドと「hdfs dfs」シェルコマンドの違いは何ですか?
彼らは等しいはずですか? しかし、「hadoop fs」コマンドが「」コマンドを表示するのに、hdfs files「hdfs dfs」コマンドがローカルファイルを表示するのはなぜですか。 こちらがhadoopのバージョン情報です: Hadoop 2.0.0-mr1-cdh4.2.1 Subversion git://ubuntu-slave07.jenkins.cloudera.com/var/lib/jenkins/workspace/CDH4.2.1-Packaging-MR1/build/cdh4/mr1/2.0.0 -mr1-cdh4.2.1 / source -r jenkinsによりコンパイルされ、2013年4月22日10:48:26 PDT
109 hadoop  hdfs 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.