タグ付けされた質問 「data-processing」

7
曲線を正しい方法で滑らかにする方法は?
およそ次のように与えられるデータセットがあるとしましょう import numpy as np x = np.linspace(0,2*np.pi,100) y = np.sin(x) + np.random.random(100) * 0.2 したがって、データセットの20%の変動があります。私の最初のアイデアはscipyのUnivariateSpline関数を使用することでしたが、問題は小さなノイズを適切に考慮していないことです。周波数を考慮すると、背景は信号よりもはるかに小さいため、カットオフのみのスプラインが考えられるかもしれませんが、前後にフーリエ変換を行うため、動作が悪くなる可能性があります。別の方法は移動平均ですが、これには遅延の正しい選択も必要です。 この問題に取り組むためのヒント/本またはリンクはありますか?

3
大規模なデータ処理HbaseとCassandra [クローズ]
現在のところ、この質問は私たちのQ&A形式には適していません。回答は事実、参考資料、または専門知識によって裏付けられることを期待していますが、この質問は、討論、議論、世論調査、または広範な議論を求める可能性があります。この質問を改善して再開できると思われる場合は、ヘルプセンターにアクセスしてガイダンスを入手してください。 8年前に閉鎖されました。 大規模なデータストレージソリューションを研究した後、私はカサンドラに着陸するところです。しかし、一般的に、Hbaseは大規模なデータ処理と分析に適したソリューションであると言われています。 どちらも同じキー/値ストレージであり、両方とも実行可能/実行可能ですが(Cassandra最近)Hadoopレイヤーでは、大規模なデータで処理/分析が必要な場合にHadoopをより適切な候補にします。 また、http://ria101.wordpress.com/2010/02/24/hbase-vs-cassandra-why-we-moved/で両方の詳細を見つけました 。 しかし、私はまだHbaseの具体的な利点を探しています。 Cassandraについては、ノードの追加とシームレスなレプリケーションが簡単で、障害点機能がないため、より確信が持てます。また、セカンダリインデックス機能も保持しているため、優れた利点です。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.