タグ付けされた質問 「hadoop」

Hadoopは、信頼性が高くスケーラブルな分散コンピューティング用のソフトウェアを提供するApacheオープンソースプロジェクトです。コアは、分散ファイルシステム(HDFS)とリソースマネージャー(YARN)で構成されます。Apache Hiveなどの他のさまざまなオープンソースプロジェクトは、Apache Hadoopを永続化レイヤーとして使用します。

4
MapReduceソートアルゴリズムはどのように機能しますか?
MapReduceの威力を示すために使用される主な例の1つは、Terasortベンチマークです。MapReduce環境で使用される並べ替えアルゴリズムの基本を理解できません。 私にとって、ソートは単に、他のすべての要素との関係における要素の相対位置を決定することを含みます。したがって、ソートには「すべて」と「すべて」の比較が含まれます。平均的な並べ替えアルゴリズム(クイック、バブルなど)は、これをスマートな方法で単純に実行します。 私の考えでは、データセットを多くの部分に分割するということは、1つの部分を並べ替えることができ、これらの部分を「完全な」完全に並べ替えられたデータセットに統合する必要があることを意味します。テラバイトのデータセットが数千のシステムに分散していることを考えると、これは大きな仕事になると思います。 それで、これは実際にどのように行われますか?このMapReduce並べ替えアルゴリズムはどのように機能しますか? 理解してくれてありがとう。

6
「hadoop fs」シェルコマンドと「hdfs dfs」シェルコマンドの違いは何ですか?
彼らは等しいはずですか? しかし、「hadoop fs」コマンドが「」コマンドを表示するのに、hdfs files「hdfs dfs」コマンドがローカルファイルを表示するのはなぜですか。 こちらがhadoopのバージョン情報です: Hadoop 2.0.0-mr1-cdh4.2.1 Subversion git://ubuntu-slave07.jenkins.cloudera.com/var/lib/jenkins/workspace/CDH4.2.1-Packaging-MR1/build/cdh4/mr1/2.0.0 -mr1-cdh4.2.1 / source -r jenkinsによりコンパイルされ、2013年4月22日10:48:26 PDT
109 hadoop  hdfs 

15
hadoopバイナリパスでwinutilsバイナリを見つけることができませんでした
最新のhadoop-2.2リリースでnamenodeを開始すると、次のエラーが発生します。hadoop binフォルダーにwinutils exeファイルが見つかりませんでした。以下のコマンドを試してみました $ bin/hdfs namenode -format $ sbin/yarn-daemon.sh start resourcemanager ERROR [main] util.Shell (Shell.java:getWinUtilsPath(303)) - Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278) at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300) at org.apache.hadoop.util.Shell.<clinit>(Shell.java:293) at org.apache.hadoop.util.StringUtils.<clinit>(StringUtils.java:76) at org.apache.hadoop.yarn.server.resourcemanager.ResourceManager.main(ResourceManager.java:863)
108 hadoop 

15
Apache Hadoopに相当する.NETはありますか?[閉まっている]
閉まっている。この質問はスタックオーバーフローのガイドラインを満たしていません。現在、回答を受け付けていません。 この質問を改善してみませんか?Stack Overflowのトピックとなるように質問を更新します。 4年前休業。 この質問を改善する それで、私は鋭敏な興味を持ってHadoopを見てきました。正直、私は魅了されて、物事はそれほど冷たくなりません。 私のマイナーな唯一の問題は、C#開発者であり、Javaにあります。 Google MapReduceアプローチを採用するHadoop.net、NHadoop、または.NETプロジェクトを探しているのと同じくらい、Javaを理解していないわけではありません。誰か知っていますか?
98 c#  .net  hadoop  mapreduce 

18
hadoopスキームのFileSystemがありません:ファイル
単純なNaiveBayesClassiferhadoopを使用して実行しようとしていますが、このエラーが発生します Exception in thread "main" java.io.IOException: No FileSystem for scheme: file at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1375) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:66) at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:1390) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:196) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:95) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:180) at org.apache.hadoop.fs.Path.getFileSystem(Path.java:175) at org.apache.mahout.classifier.naivebayes.NaiveBayesModel.materialize(NaiveBayesModel.java:100) コード: Configuration configuration = new Configuration(); NaiveBayesModel model = NaiveBayesModel.materialize(new Path(modelPath), configuration);// error in this line.. modelPathNaiveBayes.binファイルを指しており、構成オブジェクトが印刷中です-Configuration: core-default.xml, core-site.xml 私はそれが瓶のためだと思います、何かアイデアはありますか?
96 java  hadoop  io 


7
アブロ対寄木細工
私は、Hadoop関連のプロジェクトにHadoopファイル形式の1つを使用することを計画しています。寄木細工は、列ベースのクエリとフルスキャンのavro、またはすべての列データが必要な場合に効率的であることを理解しています。 先に進んでファイル形式の1つを選択する前に、一方の欠点/欠点が何であるかを理解したいと思います。誰かが私にそれを簡単な言葉で説明できますか?
92 hadoop  avro  parquet 


25
コマンドプロンプトからHiveとHadoopのバージョンを知る方法は?
コマンドプロンプトから、使用しているHiveのバージョンを確認するにはどうすればよいですか。以下は詳細です- Puttyを使用して、ハイブテーブルに接続し、テーブル内のレコードにアクセスしています。それで、私がしたことは、Puttyを開き、ホスト名を入力leo-ingesting.vip.name.comして、クリックしましたOpen。次に、ユーザー名とパスワードを入力してから、Hivesqlにアクセスするためのいくつかのコマンドを入力しました。以下は私がしたことのリストです $ bash bash-3.00$ hive Hive history file=/tmp/rkost/hive_job_log_rkost_201207010451_1212680168.txt hive> set mapred.job.queue.name=hdmi-technology; hive> select * from table LIMIT 1; では、コマンドプロンプトから、使用しているハイブのバージョンとHadoopのバージョンを見つける方法はありますか?
88 hadoop  hive 

5
寄木細工vsORC vs ORC with Snappy
Hiveで利用可能なストレージ形式でいくつかのテストを実行し、主要なオプションとしてParquetとORCを使用しています。ORCをデフォルトの圧縮で1回、Snappyで1回含めました。 私はParquetがORCと比較して時間/空間の複雑さが優れていると述べている多くの文書を読みましたが、私のテストは私が経験した文書と反対です。 私のデータのいくつかの詳細に従います。 Table A- Text File Format- 2.5GB Table B - ORC - 652MB Table C - ORC with Snappy - 802MB Table D - Parquet - 1.9 GB 私のテーブルの圧縮に関する限り、寄木細工は最悪でした。 上記の表を使用したテストでは、次の結果が得られました。 行カウント操作 Text Format Cumulative CPU - 123.33 sec Parquet Format Cumulative CPU - 204.92 sec ORC Format Cumulative …
88 hadoop  hive  parquet  snappy  orc 

28
ホストローカルホストポート22に接続:接続が拒否されました
ローカルマシンにhadoopをインストールしているときに、次のエラーが発生しました ssh -vvv localhost OpenSSH_5.5p1, OpenSSL 1.0.0e-fips 6 Sep 2011 debug1: Reading configuration data /etc/ssh/ssh_config debug1: Applying options for * debug2: ssh_connect: needpriv 0 debug1: Connecting to localhost [127.0.0.1] port 22. debug1: connect to address 127.0.0.1 port 22: Connection refused ssh: connect to host localhost port 22: Connection refused ポート番号を変更するよりも、誰かがこのエラーを解決するのを手伝ってくれる?
86 linux  hadoop  ssh 

8
コンテナがメモリ制限を超えて実行されています
Hadoop v1では、7つのマッパーとレデューサースロットをそれぞれ1GBのサイズで割り当てましたが、マッパーとレデューサーは正常に動作します。私のマシンには8Gメモリ、8プロセッサが搭載されています。YARNで、同じマシンで同じアプリケーションを実行すると、コンテナエラーが発生しました。デフォルトでは、次の設定があります。 <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>1024</value> </property> <property> <name>yarn.scheduler.maximum-allocation-mb</name> <value>8192</value> </property> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>8192</value> </property> それは私にエラーを与えました: Container [pid=28920,containerID=container_1389136889967_0001_01_000121] is running beyond virtual memory limits. Current usage: 1.2 GB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing container. 次に、mapred-site.xmlでメモリ制限を設定しようとしました。 <property> <name>mapreduce.map.memory.mb</name> <value>4096</value> </property> <property> <name>mapreduce.reduce.memory.mb</name> …
85 hadoop  mapreduce  yarn  mrv2 

3
大規模なデータ処理HbaseとCassandra [クローズ]
現在のところ、この質問は私たちのQ&A形式には適していません。回答は事実、参考資料、または専門知識によって裏付けられることを期待していますが、この質問は、討論、議論、世論調査、または広範な議論を求める可能性があります。この質問を改善して再開できると思われる場合は、ヘルプセンターにアクセスしてガイダンスを入手してください。 8年前に閉鎖されました。 大規模なデータストレージソリューションを研究した後、私はカサンドラに着陸するところです。しかし、一般的に、Hbaseは大規模なデータ処理と分析に適したソリューションであると言われています。 どちらも同じキー/値ストレージであり、両方とも実行可能/実行可能ですが(Cassandra最近)Hadoopレイヤーでは、大規模なデータで処理/分析が必要な場合にHadoopをより適切な候補にします。 また、http://ria101.wordpress.com/2010/02/24/hbase-vs-cassandra-why-we-moved/で両方の詳細を見つけました 。 しかし、私はまだHbaseの具体的な利点を探しています。 Cassandraについては、ノードの追加とシームレスなレプリケーションが簡単で、障害点機能がないため、より確信が持てます。また、セカンダリインデックス機能も保持しているため、優れた利点です。

8
Hadoopでreduceタスクはいつ開始されますか?
Hadoopでは、reduceタスクはいつ開始されますか?マッパーの特定の割合(しきい値)が完了した後に開始しますか?もしそうなら、このしきい値は固定されていますか?通常、どのような種類のしきい値が使用されますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.