統計とビッグデータ r

6

好奇心のためだけに...ここで最も使用される言語は何ですか？R？MATLAB？Python？Java？プロトタイプまたはプロダクションはどうですか？たとえば、MATLABは主にプロトタイピングに、Pythonは両方のプロトタイプに使用されていると思います。そして生産...

8 r matlab python java

4

rpartはデフォルトで多変量分割を使用しますか？

Rのrpart関数が多変量分割を実装するために必要なデータを保持することは知っていますが、実際に多変量分割を実行しているかどうかはわかりません。私はrpartドキュメントを見てオンラインで調べてみましたが、それを実行できる、または実行しているという情報はありません。誰もが確かに知っていますか？

8 r multivariate-analysis cart

2

日付に基づいてRでデータフレームをサブセット化する[終了]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、話題のクロス検証済みのため。 4年前休業。非常にシンプルなログファイルのような構造のデータセットがあります。日付範囲に従ってデータをサブセット化したいのですが、1つのパラメーターでしか実行できません。私のデータは次のようになります： date_time loc_id node energy kgco2 1 2009-02-27 00:11:08 87 103 0.00000 0.00000 2 2009-02-27 01:05:05 87 103 7.00000 3.75900 3 2009-02-27 02:05:05 87 103 6.40039 3.43701 4 2009-02-27 03:05:05 87 103 4.79883 2.57697 5 2009-02-27 04:05:05 87 103 4.10156 2.20254 6 2009-02-27 05:05:05 87 …

8 time-series r

3

スカラー入力の標本分散をどのように定義すべきですか？

Matlabがスカラー入力の標本分散に対してを返すことを最近知り、私は恐怖に思いました。000 >> var(randn(1),0) %the '0' here tells var to give sample variance ans = 0 >> var(randn(1),1) %the '1' here tells var to give population variance ans = 0 どういうわけか、この場合、サンプル分散はで除算されていません。RはスカラーのNaNを返します。0 = n − 10=n−10 = n-1 > var(rnorm(1,1)) [1] NA スカラーの母集団標本分散を定義する賢明な方法は何だと思いますか？NaNの代わりにゼロを返すと、どのような影響がありますか？編集：Matlabのヘルプからvar： VAR normalizes Y by N-1 if N>1, where …

8 r variance matlab

3

非常に大きなファイルからのサンプルで回帰を行っています。サンプル係数の平均とSEは、一貫した推定量ですか？

100M行30列程度のかなり大きなファイルがあり、その上で複数の回帰を実行したいと思います。私はファイル全体で回帰を実行するための特別なコードを持っていますが、私がしたいことは、ファイルからランダムなサンプルを描画してRで実行することです。戦略は次のとおりです。対象の係数を保存し、係数ごとに異なるサンプルを使用してこのプロセスをM回繰り返し、M回の実行に対する係数の平均と標準誤差を計算します。 Mランで計算された平均を、データセット全体で計算された係数の値の推定値として解釈し、平均の標準誤差を、データセット全体で計算された係数の標準誤差の推定値として解釈したいと思います。実験はこれが有望な戦略であることを示していますが、根本的な理論についてはわかりません。私の推定者は一貫して効率的で偏っていませんか？それらが一貫している場合、どれくらい早く収束すべきですか？MとNのどのトレードオフが最適ですか？誰かが私に関連理論を使って論文や本などを教えてもらえれば幸いです。今後ともよろしくお願いいたします。ジョー・リッカート

8 r regression large-data bootstrap

5

単精度浮動小数点はそれほど悪いですか？

私は、タスクPERF Highからパッケージのいくつかを見てきたビュー GPU計算を扱う、そしてほとんどのGPUは、DPのより単精度算術演算を行うの強い大きさのオーダーであるように見えることを考えるものを、私は思っていました。なぜ、どのパッケージも必要な精度のタイプをユーザーに制御することができないのですか？SP演算（つまり、7桁の精度でコード化された数値）が実用に十分な統計で多くのアプリケーションを見ることができます（関係するゲインを過大評価している場合は、お知らせください）。これでPythonはより柔軟ですか？もしそうなら、なぜですか？Rに「単一の」タイプがないと、なぜGPUtoolsやmagmaにそのようなオプション（警告と共に）を含めることができないのか（私は間違って表示されて喜んでいますが）わかりません。 PS：私は、具体的なアプリケーションを考えています番号はすでに次元ワイズ（チェビシェフのようにスケーリングされ、中央に配置された不等式は次元状に結合されます）。

8 r python gpu

3

時間経過実験における遺伝子のクラスター化

時系列のクラスタリング、具体的にはクラスタリングに関するクエリをいくつか見ましたが、それらが私の質問に答えるとは思いません。背景：酵母での時間経過実験で遺伝子をクラスター化したい。t1、 t2、 t3 、 t4の 4つの時点と、遺伝子の総数Gがあります。私はデータを行列Mの形式で持っています。ここで、列は処理（または時点） t1 t2 t3 および t4 を表し、行は遺伝子を表します。したがって、MはGx4行列です。問題：すべての時点t1、 t2、 t3 、および t4 で、また特定の時点tiで同じように動作する遺伝子をクラスター化したい（iは{1、2、3、4}にある）（両方のクラスタリングを組み合わせた場合、ある時点でのクラスタリングは、複数の時点でのクラスタリングよりも重要です。これに加えて、ヒートマップも描きたいです。私の解決策：以下のRコードを使用して、ヒートマップとhclustRの関数を使用したクラスターを取得します（ユークリッド距離で階層的クラスタリングを実行します）。 row.scaled.expr <- (expr.diff - rowMeans(expr.diff)) / rowSds(expr.diff) breaks.expr <- c(quantile(row.scaled.expr[row.scaled.expr < 0], seq(0,1,length=10)[-9]), 0, quantile(row.scaled.expr[row.scaled.expr > 0], seq(0,1,length=10))[-1] ) blue.red.expr <- maPalette(low = "blue", high = "red", mid = …

8 r machine-learning clustering microarray

4

カプラン・マイヤー、生存分析およびRでのプロット

Rで生存分析とプロットを行うのに最適なパッケージは何ですか？チュートリアルをいくつか試しましたが、明確な答えが見つかりませんでした。 TIA

8 r data-visualization survival

4

FA：「単純構造基準」に基づく回転行列の選択

因子分析を使用する上で最も重要な問題の1つは、その解釈です。因子分析では、解釈を強化するために因子ローテーションがよく使用されます。満足のいく回転の後、回転した因子負荷行列L 'は相関行列を表す同じ機能を持ち、回転していない行列Lの代わりに因子負荷行列として使用できます。回転の目的は、回転した因子負荷行列にいくつかの望ましい特性を持たせることです。使用される方法の1つは、回転する行列が単純な構造になるように因子負荷行列を回転させることです。 LL Thurstoneは、因子回転の一般的なガイドとして、単純構造の原理を導入しました。単純な構造基準：因子行列の各行には少なくとも1つのゼロが含まれている必要があります共通因子がm個ある場合、因子行列の各列には少なくともm個のゼロが必要です因子行列の列のすべてのペアについて、1つの列ではエントリがゼロに近づくが、他の列ではエントリに近づかない変数がいくつかあるはずです。因子行列のすべての列のペアについて、4つ以上の因子がある場合、変数の大部分は両方の列でゼロに近いエントリを持つ必要があります因子行列の列のペアごとに、両方の列にゼロ以外のエントリを持つ少数の変数のみが存在する必要があります理想的なシンプルな構造は次のようなものです。各アイテムには、1つの要素のみで高い、または意味のある負荷があり、各要素には、一部の項目のみの高い、または意味のある負荷があります。問題は、回転メソッドのいくつかの組み合わせと、それぞれが受け入れるパラメーター（特に、斜めのパラメーターの場合）を試すと、候補行列の数が増え、上記の基準をどれがより適切に満たすかを確認することが非常に難しいことです。最初にその問題に直面したとき、私はそれらを単に「見る」だけでは最良の一致を選択することができず、決定を助けるためのアルゴリズムが必要であることに気付きました。プロジェクトの締め切りのストレス下で、私ができることのほとんどは、MATLABで次のコードを書くことでした。これは、一度に1つの回転行列を受け入れ、各基準が満たされているかどうかを（いくつかの仮定の下で）返します。新しいバージョン（アップグレードしようとした場合）は、3dマトリックス（2dマトリックスのセット）を引数として受け入れ、アルゴリズムは上記の基準により適合するものを返す必要があります。これらの基準からアルゴリズムをどのように抽出しますか？私はあなたの意見（メソッド自体の有用性についての批判もあったと思います）とおそらくローテーションマトリックス選択問題へのより良いアプローチを求めています。また、FAを実行したいソフトウェアを教えてください。Rの場合、どのパッケージを使用しますか？（私がFAをしなければならなかった場合、私は再びSPSSに目を向けることを認めなければなりません）。誰かがコードを提供したい場合は、RまたはMATLABを使用します。上記PSザ・シンプルな構造基準製剤は、本の中で見つけることができる「因子分析の感覚を作る」 PETT、M.、ラッキー、N.、SULLIVAN、J.によって PS2（同じ本から）：「成功した因子分析のテストは、元のコアマトリックスを再現できる範囲です。斜めの解法も使用した場合は、すべての中で最高および最低因子の最大数を生成したものを選択してください。ローディング。」これは、アルゴリズムが使用できる別の制約のように聞こえます。 PS3この質問はここでも尋ねられました。しかし、私はそれがこのサイトによりよく合うと思います。 function [] = simple_structure_criteria (my_pattern_table) %Simple Structure Criteria %Making Sense of Factor Analysis, page 132 disp(' '); disp('Simple Structure Criteria (Thurstone):'); disp('1. Each row of the factor …

8 r algorithms factor-analysis psychometrics matlab

2

Rで可能なすべての組み合わせのいくつかを取得するにはどうすればよいですか？

場合によっては、データの可能なすべての組み合わせを調べて、平均間の観察された差異をテストできる経験的分布を構築することにより、正確なテストを実行したい場合があります。可能な組み合わせを見つけるには、通常、combin関数を使用します。選択機能により、可能な組み合わせの数がわかります。組み合わせの数が非常に大きくなるのは非常に簡単で、combin関数の結果を保存することは不可能です。そこで、架空の「スタック」から一度に1つずつ値を提供するために、combin関数と同じロジックを実行するオブジェクトを作成してみました。ただし、この方法（私がインスタンス化したもの）は、妥当な組み合わせサイズでのCombnよりも50倍も遅くなります。 Combnで使用されるアルゴリズムよりもこのようなことを行うためのより良いアルゴリズムはありますか？

8 r nonparametric combinatorics

4

正規分布から得た100の最高値の平均が正規分布の98パーセンタイルと異なるのはなぜですか？

正規分布から得た100の最高値の平均が正規分布の98％パーセンタイルと異なるのはなぜですか？当然のことながら、それらは同じである必要があります。だが... Rのコード： NSIM <- 10000 x <- rep(NA,NSIM) for (i in 1:NSIM) { x[i] <- max(rnorm(100)) } qnorm(.98) qnorm(.99) mean(x) median(x) hist(x) 私は、正規分布から最大100を引くとどうなるかについて、何か誤解していると思います。最大値の予想外に非対称な分布によって示されるように。

8 r distributions maximum

2

ポイントの方向角度を示すプロットを作成するにはどうすればよいですか？[閉まっている]

休業。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。この質問を改善してみませんか？詳細を追加し、この投稿を編集して問題を明確にしてください。 6年前休業。カバの群れの隣人の角度を比較できるようにしたいです。x座標とy座標、およびそれらが向いている角度のデータがあります（imageJを使用すると、角度は-180から180の間で、0は画像の中央を横切る水平直線になります）。私はg（r ）g（r）g(r)関数をプロットして、私のカバが近くにいる個人に「向いている」かどうかを確認しましたが、を使用して群れの方向の視覚的表現を計算できるようにしたいと思いRます。どんな助けでも大歓迎です、私はまだ本当にR文盲ではありません！

8 r data-visualization circular-statistics

1

Silver＆Dunlap 1987の複製がうまくいかないのはなぜですか？

Silver＆Dunlap（1987）を複製しようとしています。私は単に平均相関を比較している、または平均z変換相関と逆変換を比較しています。彼らが見つけたバイアスの非対称性を再現していないようです（逆変換されたzはrsよりも母集団の値に近くありません）。何かご意見は？1987年のコンピューティング能力が十分に空間を探索しなかった可能性はありますか？ # Fisher's r2z fr2z <- atanh # and back fz2r <- tanh # a function that generates a matrix of two correlated variables rcor <- function(n, m1, m2, var1, var2, corr12){ require(MASS) Sigma <- c(var1, sqrt(var1*var2)*corr12, sqrt(var1*var2)*corr12, var2) Sigma <- matrix(Sigma, 2, 2) return( mvrnorm(n, c(m1,m2), Sigma, empirical=FALSE) ) …

8 r correlation data-transformation simulation normalization

5

データマイニングペーパー/例

特に、1つのデータセットがデータの準備から最終的なモデルに至るまで詳細に検討されている、データマイニングに関する中程度から長めの論文/ウェブサイトなどを探しています。特に、機械学習アルゴリズムの適用と基本的なデータモデリングについての議論に興味があります。例としては、Luis Torgoの著書「Data Mining with R」があります。任意の提案をいただければ幸いです。

8 r data-mining

3

Rでフレーズnetを作成する

誰かがRパッケージを知っているか、このようなフレーズネットを作成する方法を持っていますか？

8 r data-visualization text-mining

タグ付けされた質問 「r」

タグ付けされた質問「r」