タグ付けされた質問 「java」

5
大学院の統計コースが提供するレベルの統計用のオープンソースJavaライブラリ
GK BhattacharyyaとRA Johnsonによる、統計の概念と方法の次のテキストを使用して、応用統計の大学院コースを受講しています。 教授は、宿題にSASを使用することを要求しています。 私の質問は、そのようなクラスで一般的に見られる問題のためにSASの代わりに使用できるJavaライブラリがありますか? 私は現在、Apache Math Commonsで間に合わせようとしていますが、ライブラリには感銘を受けていますが(使いやすさと理解しやすさ)、ヒストグラムを描画する機能(チャートライブラリと組み合わせることを考えると)のような単純なことすら欠けているようです)。 私はコルトを見てきましたが、私の最初の関心はすぐになくなりました。 ご意見をお寄せいただければ幸いです。Stackoverflowで同様の質問を見ましたが、説得力のあるものは見つかりませんでした。 注:R、SciPy、Octave、およびそれらを呼び出すjavaライブラリを認識しています-一緒に探している機能を提供できるJavaネイティブライブラリまたはライブラリのセットを探しています。 注:このようなクラスでカバーされるトピックには、通常、1標本および2標本検定、平均値と中央値の信頼区間、記述統計、適合度検定、一元配置および二元配置分散分析、同時推論、検定が含まれます。分散、回帰分析、およびカテゴリーデータ分析。
15 r  sas  java 

4
時系列データの平滑化
私は睡眠中に加速度計データを記録するアンドロイドアプリケーションを構築します。これにより、睡眠の傾向を分析し、必要に応じて、浅い睡眠中に希望する時間近くにユーザーを起床します。 アラームと同様に、データを収集して保存するコンポーネントをすでに構築しています。睡眠データを本当に意味のある明確な方法で表示して保存するという獣に取り組む必要があります。これは、分析にも役立つことが望ましい方法です。 数枚の写真が2000語を言います:(担当者が少ないため、リンクは1つしか投稿できません) これは、30秒間隔で収集された、フィルタリングされていないデータ、つまり移動の合計です。 そして、移動平均平滑化の私自身の明示によって平滑化された同じデータ 編集)両方のチャートにキャリブレーションが反映されます-最小の「ノイズ」フィルターと最大カットオフフィルター、およびアラームトリガーレベル(白い線)があります 残念ながら、これらはどちらも最適なソリューションではありません。1つ目は平均的なユーザーにとって少しわかりにくいもので、2つ目は理解しやすいもので、実際に起こっていることの多くを隠しています。特に、平均化により動きのスパイクの詳細が削除されます。これらは意味があると思います。 では、なぜこれらのチャートはそれほど重要なのでしょうか?これらの時系列は、ユーザーへのフィードバックとして一晩中表示され、後で確認/分析するために保存されます。スムージングは​​、理想的にはメモリコスト(RAMとストレージの両方)を削減し、これらのリソース不足の携帯電話/デバイスでのレンダリングを高速化します。 明らかにデータを平滑化するより良い方法があります。線形回帰を使用して動きの「シャープ」な変化を見つけ出し、移動平均平滑化を修正するなど、漠然としたアイデアがあります。より最適に解決できるものに真っ先に飛び込む前に、私は本当にいくつかのガイダンスと入力が本当に必要です。 ありがとう!

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
データからワイブルパラメータを決定するにはどうすればよいですか?
風速データのヒストグラムがあり、ワイブル分布を使用して表されることがよくあります。ヒストグラムに最適なワイブル形状とスケール係数を計算したいと思います。 目標はプログラムでワイブル形式を決定することなので、(グラフィックソリューションではなく)数値ソリューションが必要です。 編集: サンプルは10分ごとに収集され、風速は10分間の平均です。サンプルには、現在無視されている各インターバル中に記録された最大および最小の風速も含まれていますが、後で取り入れたいと思います。ビンの幅は0.5 m / s

3
n、pの両方が大きい場合、PCAが遅すぎる:代替案?
問題の設定 高次元(4096)のデータポイント(画像)があり、それを2Dで視覚化しようとしています。この目的のために、私はKarpathyによる次のコード例のような方法でt- sneを使用しています。 scikit-学ぶドキュメントは、最初のデータの次元を下げるためにPCAを使用することをお勧めします: 特徴の数が非常に多い場合は、別の次元削減方法(たとえば、密なデータの場合はPCA、疎なデータの場合はTruncatedSVD)を使用して、次元数を妥当な量(たとえば50)に減らすことを強くお勧めします。 私はこのコードをDarks.LiuによってJavaでPCAを実行するために使用しています: //C=X*X^t / m DoubleMatrix covMatrix = source.mmul(source.transpose()).div(source.columns); ComplexDoubleMatrix eigVal = Eigen.eigenvalues(covMatrix); ComplexDoubleMatrix[] eigVectorsVal = Eigen.eigenvectors(covMatrix); ComplexDoubleMatrix eigVectors = eigVectorsVal[0]; //Sort sigen vector from big to small by eigen values List<PCABean> beans = new ArrayList<PCA.PCABean>(); for (int i = 0; i < eigVectors.columns; i++) { …

3
Java / Scala用の完全な機械学習ライブラリ[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 4年前休業。 PythonにはMLライブラリがたくさんあります(すばらしいscikit-learnなど)。多くのアルゴ(回帰、分類、クラスタリング、相互検証、特徴処理)を含み、安定して維持され、大規模なデータセットを処理できるjava / scalaに何か良いものはありますか? 私は、Mahout、Breeze / Nak、Wekaを見つけたばかりですが、Pythonのものほど見栄えがよくありません。 さらに、同等のものがない場合、JavaコードをPythonに効率的に接続するにはどうすればよいですか?

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
経験的分布の使用/解釈方法は?
まず、漠然としたタイトルについてお詫びしたいのですが、今のところより良いタイトルを作成することができませんでした。自由に変更するか、変更のアドバイスをお願いします。タイトルを質問の核心に合わせてください。 。 質問自体については、サンプリングに経験的分布を使用するというアイデアに出くわしたソフトウェアに取り組んでいますが、実装されたため、すべてを解釈する方法がわかりません。私が行ったこととその理由を説明させてください: 一連のオブジェクトの計算がたくさんあり、最終スコアが得られます。ただし、スコアはその場限りです。したがって、特定のオブジェクトのスコアを理解するために、モック/ランダムに生成された値を使用してスコアの計算を多数(N = 1000)実行し、1000のモックスコアを生成します。その特定のオブジェクトの経験的な「スコア分布」の推定は、これらの1000モックスコア値によって達成されます。 私はこれをJavaで実装しました(他のソフトウェアもJava環境で記述されているため)、Apache Commons Mathライブラリ、特にEmpiricalDistImplclassを使用します。ドキュメントによると、このクラスは以下を使用します: ガウス平滑化を使用した可変カーネル法に相当するもの:入力ファイルのダイジェスト ファイルを1回渡して、最小値と最大値を計算します。 範囲をmin-maxからbinCount "bins"に分割します。 データファイルを再度渡して、各ビンのビンカウントと一変量統計(平均、標準偏差)を計算します。 間隔(0,1)を、ビンに関連付けられたサブインターバルに分割します。ビンのサブインターバルの長さは、そのカウントに比例します。 今私の質問は、ある種の期待値を計算するためにこの分布からサンプリングすることは理にかなっていますか?言い換えれば、このディストリビューションをどれだけ信頼/信頼できますか?たとえば、分布をチェックしてスコアを観察することの重要性について結論を出すことはできますか?SSS これはおそらく、このような問題を検討するための正統な方法ではないことを理解していますが、経験的分布の概念と、それらを分析にどのように使用できるかできないかを理解することは興味深いと思います。

6
統計的推論のためのプログラミング言語は何ですか?
好奇心のためだけに...ここで最も使用される言語は何ですか?R?MATLAB?Python?Java? プロトタイプまたはプロダクションはどうですか?たとえば、MATLABは主にプロトタイピングに、Pythonは両方のプロトタイプに使用されていると思います。そして生産...
8 r  matlab  python  java 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.