プログラミング hadoop

21

Hadoop「プラットフォームのネイティブHadoopライブラリをロードできません」警告

私は、現在実行しているサーバー上でHadoopを設定していCentOSのを。start-dfs.shまたはを実行するとstop-dfs.sh、次のエラーが発生します。警告util.NativeCodeLoader：プラットフォームのネイティブHadoopライブラリをロードできません...該当する場合は組み込みJavaクラスを使用しています Hadoop 2.2.0を実行しています。オンラインで検索すると、次のリンクが表示されます。http：//balanceandbreath.blogspot.ca/2013/01/utilnativecodeloader-unable-to-load.html ただし、/native/hadoop 2.x のディレクトリの内容が異なるように見えるため、どうすればよいかわかりません。また、これら2つの環境変数をに追加しましたhadoop-env.sh。エクスポートHADOOP_OPTS = "$ HADOOP_OPTS -Djava.library.path = / usr / local / hadoop / lib /" エクスポートHADOOP_COMMON_LIB_NATIVE_DIR = "/ usr / local / hadoop / lib / native /" 何か案は？

269 java linux hadoop hadoop2 java.library.path

19

豚とハイブの違いは？なぜ両方あるの？[閉まっている]

休業。この質問は意見に基づいています。現在、回答を受け付けていません。この質問を改善してみませんか？この投稿を編集して、事実と引用で回答できるように質問を更新してください。 4年前休業。この質問を改善する私の経歴-Hadoopの世界で生後4週間。ClouderaのHadoop VMを使用して、Hive、Pig、Hadoopに少し手を加えました。Map-ReduceとGFSに関するGoogleのペーパー（PDFリンク）を読んでいること。という事は承知しています- Pigの言語Pig Latinは、宣言的なプログラミングスタイルのようなSQLからのシフト（プログラマーの考え方に適合）であり、Hiveのクエリ言語はSQLによく似ています。豚はHadoopの上に座っており、原則としてドライアドの上に置くこともできます。私は間違っているかもしれませんが、HiveはHadoopと密接に関連しています。 Pig LatinコマンドとHiveコマンドの両方がコンパイルされ、MapジョブとReduceジョブが実行されます。私の質問-1つ（たとえば、Pig）が目的を果たすことができるときに両方を持つことの目標は何ですか？それは、PigがYahoo! FacebookのHiveですか？

256 hadoop hive apache-pig

8

Apache Spark：コアの数とエグゼキューターの数

YARNでSparkジョブを実行するときのコアの数とエグゼキューターの数の関係を理解しようとしています。テスト環境は次のとおりです。データノードの数：3 データノードマシンの仕様： CPU：Core i7-4790（コア数：4、スレッド数：8） RAM：32GB（8GB x 4） HDD：8TB（2TB x 4）ネットワーク：1 Gb Sparkバージョン：1.0.0 Hadoopバージョン：2.4.0（Hortonworks HDP 2.1） Sparkジョブフロー：sc.textFile-> filter-> map-> filter-> mapToPair-> reduceByKey-> map-> saveAsTextFile 入力データタイプ：単一のテキストファイルサイズ：165GB ライン数：454,568,833 出力 2番目のフィルター後の行数：310,640,717 結果ファイルの行数：99,848,268 結果ファイルのサイズ：41GB ジョブは次の構成で実行されました： --master yarn-client --executor-memory 19G --executor-cores 7 --num-executors 3 （データノードごとのエグゼキューター、コアと同じだけ使用） --master yarn-client --executor-memory 19G --executor-cores 4 …

192 hadoop apache-spark yarn

16

いつHadoop、HBase、Hive、Pigを使用するのですか？

HadoopまたはHBaseまたはHiveを使用する利点は何ですか？私の理解では、HBaseはmap-reduceの使用を回避し、HDFSの上に列指向のストレージを備えています。Hiveは、HadoopおよびHBase用のSQLに似たインターフェースです。また、HiveとPigの比較についても知りたいです。

185 hadoop hbase hive apache-pig

15

SparkでINFOロギングをオフにする方法は？

AWS EC2ガイドを使用してSparkをインストールしました。bin/pysparkスクリプトを使用してプログラムを正常に起動し、sparkプロンプトを表示し、クイックスタートクワイエドを正常に実行することもできます。ただし、私はINFO、各コマンドの後にすべての詳細ログを停止する方法を理解することができません。各ノードからだけでなく、アプリケーションを起動するフォルダー内のlog4j.propertiesファイル内の以下のコード（コメントアウト、OFFに設定）でほぼすべての可能なシナリオを試しconfましたが、何も実行されていません。INFO各ステートメントを実行した後も、ログステートメントが出力されます。私はこれがどのように機能することになっているのか非常に混乱しています。 #Set everything to be logged to the console log4j.rootCategory=INFO, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too verbose log4j.logger.org.eclipse.jetty=WARN log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO これが私が使用するときの私の完全なクラスパスSPARK_PRINT_LAUNCH_COMMANDです： Sparkコマンド：/ライブラリ/Java/JavaVirtualMachines/jdk1.8.0_05.jdk/Contents/Home/bin/java -cp：/root/spark-1.0.1-bin-hadoop2/conf：/root/spark-1.0.1 -bin-hadoop2 / conf：/root/spark-1.0.1-bin-hadoop2/lib/spark-assembly-1.0.1-hadoop2.2.0.jar：/root/spark-1.0.1-bin-hadoop2/lib /datanucleus-api-jdo-3.2.1.jar:/root/spark-1.0.1-bin-hadoop2/lib/datanucleus-core-3.2.2.jar:/root/spark-1.0.1-bin-hadoop2 /lib/datanucleus-rdbms-3.2.1.jar -XX：MaxPermSize = 128m -Djava.library.path = …

144 python scala apache-spark hadoop pyspark

14

Spark-CSVファイルをDataFrameとしてロードしますか？

私はスパークでCSVを読み取り、それをDataFrameとして変換し、HDFSに保存したいと思います df.registerTempTable("table_name") 私が試してみました： scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") 私が得たエラー： java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:277) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:276) at scala.collection.parallel.mutable.ParArray$Map.leaf(ParArray.scala:658) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply$mcV$sp(Tasks.scala:54) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:53) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:53) at scala.collection.parallel.Task$class.tryLeaf(Tasks.scala:56) at scala.collection.parallel.mutable.ParArray$Map.tryLeaf(ParArray.scala:650) at …

140 scala apache-spark hadoop apache-spark-sql hdfs

3

他のフォーマットと比較した寄木細工のフォーマットの長所と短所は何ですか？

Apache Parquetの特徴は次のとおりです。自己記述カラムナー形式言語に依存しない Avro、Sequence Files、RC Fileなどと比較して、フォーマットの概要を知りたい。私はすでに読んでいます：ImpalaがHadoopファイル形式でどのように機能するか、それは形式に関するいくつかの洞察を提供しますが、データへのアクセスとデータのストレージがこれらの各形式でどのように行われるかを知りたいです。寄木細工は他のものよりどのように有利ですか？

136 file hadoop hdfs avro parquet

8

HDFSからローカルファイルシステムにファイルをコピーする方法

HDFSからローカルファイルシステムにファイルをコピーする方法。ファイルの下にファイルの物理的な場所はなく、ディレクトリもありません。さらに検証するために、それらをローカルに移動するにはどうすればよいですか。winscpを試してみました。

135 hadoop copy hdfs

6

HBaseとHadoop / HDFSの違い

これは素朴な質問ですが、私はNoSQLパラダイムに不慣れで、あまり詳しくありません。それで、誰かがHBaseとHadoopの違いを明確に理解するのを助けることができるか、または違いを理解するのに役立つかもしれないいくつかの指針を与えるなら。今まで、私はいくつかの研究とaccを行いました。私の理解では、HadoopはHDFSでデータ（ファイル）の生のチャンクを処理するフレームワークを提供し、HBaseはHadoop上のデータベースエンジンであり、基本的に生のデータチャンクではなく構造化データを処理します。Hbaseは、SQLと同じように、HDFS上の論理レイヤーを提供します。それが正しいか？ Plsは私を自由に修正してください。ありがとう。

130 hadoop nosql hbase hdfs difference

8

Hiveでのテーブルのパーティション化とバケット化の違いは何ですか？

テーブルの列で両方が実行されることはわかっていますが、各操作はどのように異なりますか。

129 hadoop hive

13

Hadoopでの複数のMapReduceジョブのチェーン

MapReduceを適用する多くの実際の状況では、最終的なアルゴリズムは最終的にいくつかのMapReduceステップになります。つまり、Map1、Reduce1、Map2、Reduce2などです。したがって、次のマップの入力として必要な最後の削減からの出力があります。中間データは、パイプラインが正常に完了した後に（一般的に）保持したくないものです。また、この中間データは一般に一部のデータ構造（「マップ」や「セット」など）であるため、これらのキーと値のペアの書き込みと読み取りにあまり労力をかけたくありません。 Hadoopでそれを行うための推奨される方法は何ですか？後のクリーンアップを含め、この中間データを正しい方法で処理する方法を示す（簡単な）例はありますか？

124 hadoop mapreduce

9

名前ノードはセーフモードです。出られない

root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/t. Name node is in safe mode. hdfsで何も作成できないやった root# bin/hadoop fs -safemode leave しかし、示しています safemode: Unknown command 何が問題ですか？解決

122 hadoop hdfs

6

Hadoopはどのようにしてレコードをブロック境界にまたがって処理しますか？

による Hadoop - The Definitive Guide FileInputFormatsが定義する論理レコードは、通常、HDFSブロックにきちんと適合しません。たとえば、TextInputFormatの論理レコードは線であり、HDFSの境界を越える頻度が高くなります。これは、プログラムの機能には影響しません。たとえば、行が失われたり壊れたりすることはありません。ただし、データローカルマップ（つまり、ローカルの同じホストで実行されているマップ）入力データ）は、いくつかのリモート読み取りを実行します。これが引き起こすわずかなオーバーヘッドは、通常は重要ではありません。レコード行が2つのブロック（b1とb2）に分割されているとします。最初のブロック（b1）を処理するマッパーは、最後の行にEOLセパレータがないことに気づき、次のデータブロック（b2）から行の残りをフェッチします。 2番目のブロック（b2）を処理するマッパーは、最初のレコードが不完全であり、ブロック（b2）の2番目のレコードから処理を開始する必要があるとどのように判断しますか？

119 hadoop split mapreduce block hdfs

9

Map Reduceプログラミングのリデューサーでシャッフルとソートのフェーズの目的は何ですか？

Map Reduceプログラミングでは、reduceフェーズはそのサブパートとしてシャッフル、ソート、reduceを行います。並べ替えはコストのかかる作業です。 Map Reduceプログラミングのリデューサーでシャッフルとソートのフェーズの目的は何ですか？

113 sorting hadoop mapreduce hdfs shuffle

18

Hive内部テーブルと外部テーブルの違いは何ですか？

Hiveの外部テーブルと内部テーブルの違いを誰かに教えてもらえますか？テーブルを落とすときに違いが出るのは知っています。データの意味がわかりません。メタデータは内部で削除され、メタデータのみが外部テーブルで削除されます。誰かがノードに関して私を説明できますか？

110 hadoop hive hiveql

タグ付けされた質問 「hadoop」

タグ付けされた質問「hadoop」