統計とビッグデータ java

5

GK BhattacharyyaとRA Johnsonによる、統計の概念と方法の次のテキストを使用して、応用統計の大学院コースを受講しています。教授は、宿題にSASを使用することを要求しています。私の質問は、そのようなクラスで一般的に見られる問題のためにSASの代わりに使用できるJavaライブラリがありますか？私は現在、Apache Math Commonsで間に合わせようとしていますが、ライブラリには感銘を受けていますが（使いやすさと理解しやすさ）、ヒストグラムを描画する機能（チャートライブラリと組み合わせることを考えると）のような単純なことすら欠けているようです）。私はコルトを見てきましたが、私の最初の関心はすぐになくなりました。ご意見をお寄せいただければ幸いです。Stackoverflowで同様の質問を見ましたが、説得力のあるものは見つかりませんでした。注：R、SciPy、Octave、およびそれらを呼び出すjavaライブラリを認識しています-一緒に探している機能を提供できるJavaネイティブライブラリまたはライブラリのセットを探しています。注：このようなクラスでカバーされるトピックには、通常、1標本および2標本検定、平均値と中央値の信頼区間、記述統計、適合度検定、一元配置および二元配置分散分析、同時推論、検定が含まれます。分散、回帰分析、およびカテゴリーデータ分析。

15 r sas java

4

時系列データの平滑化

私は睡眠中に加速度計データを記録するアンドロイドアプリケーションを構築します。これにより、睡眠の傾向を分析し、必要に応じて、浅い睡眠中に希望する時間近くにユーザーを起床します。アラームと同様に、データを収集して保存するコンポーネントをすでに構築しています。睡眠データを本当に意味のある明確な方法で表示して保存するという獣に取り組む必要があります。これは、分析にも役立つことが望ましい方法です。数枚の写真が2000語を言います：（担当者が少ないため、リンクは1つしか投稿できません）これは、30秒間隔で収集された、フィルタリングされていないデータ、つまり移動の合計です。そして、移動平均平滑化の私自身の明示によって平滑化された同じデータ編集）両方のチャートにキャリブレーションが反映されます-最小の「ノイズ」フィルターと最大カットオフフィルター、およびアラームトリガーレベル（白い線）があります残念ながら、これらはどちらも最適なソリューションではありません。1つ目は平均的なユーザーにとって少しわかりにくいもので、2つ目は理解しやすいもので、実際に起こっていることの多くを隠しています。特に、平均化により動きのスパイクの詳細が削除されます。これらは意味があると思います。では、なぜこれらのチャートはそれほど重要なのでしょうか？これらの時系列は、ユーザーへのフィードバックとして一晩中表示され、後で確認/分析するために保存されます。スムージングは、理想的にはメモリコスト（RAMとストレージの両方）を削減し、これらのリソース不足の携帯電話/デバイスでのレンダリングを高速化します。明らかにデータを平滑化するより良い方法があります。線形回帰を使用して動きの「シャープ」な変化を見つけ出し、移動平均平滑化を修正するなど、漠然としたアイデアがあります。より最適に解決できるものに真っ先に飛び込む前に、私は本当にいくつかのガイダンスと入力が本当に必要です。ありがとう！

14 time-series smoothing signal-processing java

1

R / mgcv：なぜte（）とti（）テンソル積が異なる表面を生成するのですか？

のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています（非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか）。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)（わずかに）異なる結果を生成するのかということです。 MWE（から適応?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

データからワイブルパラメータを決定するにはどうすればよいですか？

風速データのヒストグラムがあり、ワイブル分布を使用して表されることがよくあります。ヒストグラムに最適なワイブル形状とスケール係数を計算したいと思います。目標はプログラムでワイブル形式を決定することなので、（グラフィックソリューションではなく）数値ソリューションが必要です。編集：サンプルは10分ごとに収集され、風速は10分間の平均です。サンプルには、現在無視されている各インターバル中に記録された最大および最小の風速も含まれていますが、後で取り入れたいと思います。ビンの幅は0.5 m / s

10 distributions histogram java

3

n、pの両方が大きい場合、PCAが遅すぎる：代替案？

問題の設定高次元（4096）のデータポイント（画像）があり、それを2Dで視覚化しようとしています。この目的のために、私はKarpathyによる次のコード例のような方法でt- sneを使用しています。 scikit-学ぶドキュメントは、最初のデータの次元を下げるためにPCAを使用することをお勧めします：特徴の数が非常に多い場合は、別の次元削減方法（たとえば、密なデータの場合はPCA、疎なデータの場合はTruncatedSVD）を使用して、次元数を妥当な量（たとえば50）に減らすことを強くお勧めします。私はこのコードをDarks.LiuによってJavaでPCAを実行するために使用しています： //C=X*X^t / m DoubleMatrix covMatrix = source.mmul(source.transpose()).div(source.columns); ComplexDoubleMatrix eigVal = Eigen.eigenvalues(covMatrix); ComplexDoubleMatrix[] eigVectorsVal = Eigen.eigenvectors(covMatrix); ComplexDoubleMatrix eigVectors = eigVectorsVal[0]; //Sort sigen vector from big to small by eigen values List<PCABean> beans = new ArrayList<PCA.PCABean>(); for (int i = 0; i < eigVectors.columns; i++) { …

9 pca dimensionality-reduction high-dimensional java tsne

3

Java / Scala用の完全な機械学習ライブラリ[終了]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、話題のクロス検証済みのため。 4年前休業。 PythonにはMLライブラリがたくさんあります（すばらしいscikit-learnなど）。多くのアルゴ（回帰、分類、クラスタリング、相互検証、特徴処理）を含み、安定して維持され、大規模なデータセットを処理できるjava / scalaに何か良いものはありますか？私は、Mahout、Breeze / Nak、Wekaを見つけたばかりですが、Pythonのものほど見栄えがよくありません。さらに、同等のものがない場合、JavaコードをPythonに効率的に接続するにはどうすればよいですか？

8 machine-learning python software java

2

膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

経験的分布の使用/解釈方法は？

まず、漠然としたタイトルについてお詫びしたいのですが、今のところより良いタイトルを作成することができませんでした。自由に変更するか、変更のアドバイスをお願いします。タイトルを質問の核心に合わせてください。。質問自体については、サンプリングに経験的分布を使用するというアイデアに出くわしたソフトウェアに取り組んでいますが、実装されたため、すべてを解釈する方法がわかりません。私が行ったこととその理由を説明させてください：一連のオブジェクトの計算がたくさんあり、最終スコアが得られます。ただし、スコアはその場限りです。したがって、特定のオブジェクトのスコアを理解するために、モック/ランダムに生成された値を使用してスコアの計算を多数（N = 1000）実行し、1000のモックスコアを生成します。その特定のオブジェクトの経験的な「スコア分布」の推定は、これらの1000モックスコア値によって達成されます。私はこれをJavaで実装しました（他のソフトウェアもJava環境で記述されているため）、Apache Commons Mathライブラリ、特にEmpiricalDistImplclassを使用します。ドキュメントによると、このクラスは以下を使用します：ガウス平滑化を使用した可変カーネル法に相当するもの：入力ファイルのダイジェストファイルを1回渡して、最小値と最大値を計算します。範囲をmin-maxからbinCount "bins"に分割します。データファイルを再度渡して、各ビンのビンカウントと一変量統計（平均、標準偏差）を計算します。間隔（0,1）を、ビンに関連付けられたサブインターバルに分割します。ビンのサブインターバルの長さは、そのカウントに比例します。今私の質問は、ある種の期待値を計算するためにこの分布からサンプリングすることは理にかなっていますか？言い換えれば、このディストリビューションをどれだけ信頼/信頼できますか？たとえば、分布をチェックしてスコアを観察することの重要性について結論を出すことはできますか？SSS これはおそらく、このような問題を検討するための正統な方法ではないことを理解していますが、経験的分布の概念と、それらを分析にどのように使用できるかできないかを理解することは興味深いと思います。

8 distributions sampling java

6

統計的推論のためのプログラミング言語は何ですか？

好奇心のためだけに...ここで最も使用される言語は何ですか？R？MATLAB？Python？Java？プロトタイプまたはプロダクションはどうですか？たとえば、MATLABは主にプロトタイピングに、Pythonは両方のプロトタイプに使用されていると思います。そして生産...

8 r matlab python java

タグ付けされた質問 「java」

タグ付けされた質問「java」