タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

25
統計ワークベンチとしてのPython
多くの人々が、Excelや別のスプレッドシート、SPSS、Stata、Rなどのメインツールを統計のニーズに使用しています。非常に特別なニーズのために特定のパッケージを使用する場合がありますが、単純なスプレッドシートまたは一般的な統計パッケージまたは統計プログラミング環境で多くのことができます。 私は常にプログラミング言語としてPythonが好きで、単純なニーズのために、必要なものを計算する短いプログラムを書くのは簡単です。Matplotlibでプロットできます。 RからPythonに完全に切り替えた人はいますか?R(または他の統計パッケージ)には統計に固有の多くの機能があり、実行したい統計について考えることができるデータ構造があり、データの内部表現についてはあまりありません。Python(またはその他の動的言語)には、馴染みのある高レベル言語でプログラミングできるという利点があります。また、データが存在する、またはそこから測定を行うことができる実際のシステムとプログラムでやり取りすることができます。しかし、単純な記述統計からより複雑な多変量法まで、「統計用語」で物事を表現できるPythonパッケージは見つかりませんでした。 Pythonを「統計ワークベンチ」として使用して、R、SPSSなどを置き換える場合、何を推奨できますか? あなたの経験に基づいて、私は何を獲得し、失いますか?
355 r  spss  stata  python 


2
Rのlm()出力の解釈
Rのヘルプページでは、これらの数値の意味を知っていると想定していますが、わかりません。ここですべての数字を本当に直感的に理解しようとしています。出力を投稿し、見つけた内容についてコメントします。私が想定していることを書くだけなので、間違いがあるかもしれません。主に、係数のt値の意味と、それらが残差標準誤差を出力する理由を知りたいと思います。 Call: lm(formula = iris$Sepal.Width ~ iris$Petal.Width) Residuals: Min 1Q Median 3Q Max -1.09907 -0.23626 -0.01064 0.23345 1.17532 これは残差の5ポイントの要約です(平均は常に0ですよね?)。数値を使用して(ここで推測しています)、大きな外れ値があるかどうかをすばやく確認できます。また、残差が正規分布から遠く離れている場合(正規分布である必要があります)、すでにここで確認できます。 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.30843 0.06210 53.278 < 2e-16 *** iris$Petal.Width -0.20936 0.04374 -4.786 4.07e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ ...

9
Rのグループごとにデータを要約するには?[閉まっている]
次のようなRデータフレームがあります。 age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... 次の形式でデータフレームを取得する必要があります。 group mean sd 1 34.5 5.6 2 32.3 4.2 ... グループ番号は異なる場合がありますが、名前と数量は levels(factor(data$group)) 結果を得るには、データをどのように操作する必要がありますか?

4
QQプロットの解釈方法
私は小さなデータセット(21の観測値)で作業しており、Rには次の通常のQQプロットがあります。 プロットが正規性をサポートしていないことを見て、基礎となる分布について何を推測できますか?右側に偏った分布がより適切であるように思えます、そうですか?また、データから他にどのような結論を導き出すことができますか?

8
ロジスティック回帰で完全な分離に対処する方法は?
ターゲット変数のゼロと1を完全に分離する変数がある場合、Rは次の「完全または準完全分離」警告メッセージを生成します。 Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred モデルは取得できますが、係数の推定値は膨らんでいます。 これを実際にどのように扱いますか?

21
ジュリアは統計コミュニティに固執する希望を持っていますか?
最近、R-Bloggersからの投稿を読みました。この投稿は、Juliaという新しい言語に関するJohn Myles Whiteのこのブログ投稿にリンクしています。ジュリアは、ジャストインタイムコンパイラを活用して、非常に高速な実行時間を実現し、C / C ++と同程度の速度(同じ順序、等しく高速ではない)にします。さらに、Rのapplyステートメントとベクトル演算の代わりに、従来の言語でプログラミングを始めた私たちが慣れ親しんでいるオーソドックスなループメカニズムを使用します。 Rは、ジュリアのような素晴らしいタイミングでも、決して離れることはありません。業界での広範なサポートと、ほぼ何でもできる多数の素晴らしいパッケージがあります。 私の興味は、ベクトル化が不可能な場合が多いベイジアンです。確かに、シリアルタスクはループを使用して実行する必要があり、各反復で大量の計算が必要になります。これらのシリアルループタスクではRは非常に遅くなる可能性があり、C / ++は書くのに苦労しているわけではありません。JuliaはC / ++で書くことに代わる優れた選択肢のように見えますが、まだ初期段階であり、Rについて私が愛する多くの機能を欠いています。統計コミュニティから、人々はそれに役立つパッケージを書き始めます。 私の質問は次のとおりです。 Rを統計の事実上の言語にした魅力を得るために、ジュリアに必要な機能は何ですか? C / ++のような低レベル言語を学習するよりも、計算量の多いタスクを行うためにジュリアを学習することの利点と欠点は何ですか?

3
R's lmerチートシート
このフォーラムでは、を使用してさまざまな階層モデルを指定する適切な方法について多くの議論が行われていますlmer。 すべての情報を1か所にまとめるのは素晴らしいことだと思いました。開始するいくつかの質問: 複数のレベルを指定する方法。1つのグループがもう1つのグループ内にネストされている(1|group1:group2)場合:it または(1+group1|group2)? (~1 + ....)and (1 | ...)と(0 | ...)etcの違いは何ですか? グループレベルの相互作用を指定する方法



2
どの分布がデータに最も適しているかを判断する方法は?
データセットがあり、どの分布がデータに最も適しているかを把握したいと思います。 fitdistr()関数を使用して、必要なパラメーターを推定し、想定される分布(つまり、ワイブル、コーシー、正規)を記述しました。これらのパラメーターを使用して、コルモゴロフ・スミルノフ検定を実施して、サンプルデータが想定分布と同じ分布からのものかどうかを推定できます。 p値が0.05より大きい場合、サンプルデータは同じ分布から引き出されたと仮定できます。しかし、p値は適合度に関する情報を提供しませんよね? したがって、サンプルデータのp値がワイブル分布と同様に正規分布で0.05を超える場合、どの分布がデータに適合するかをどのように知ることができますか? これは基本的に私がやったことです: > mydata [1] 37.50 46.79 48.30 46.04 43.40 39.25 38.49 49.51 40.38 36.98 40.00 [12] 38.49 37.74 47.92 44.53 44.91 44.91 40.00 41.51 47.92 36.98 43.40 [23] 42.26 41.89 38.87 43.02 39.25 40.38 42.64 36.98 44.15 44.91 43.40 [34] 49.81 38.87 40.00 52.45 53.13 47.92 ...

6
順序付けされていないカテゴリ変数との相関
多くの観測と多くの変数を含むデータフレームがあります。それらの一部はカテゴリカル(順不同)であり、その他は数値です。 これらの変数間の関連を探しています。私は数値変数の相関(スピアマンの相関)を計算できましたが、 順序付けされていないカテゴリ変数間の相関を測定する方法がわかりません。 順序付けられていないカテゴリ変数と数値変数の相関を測定する方法がわかりません。 誰もこれがどのように行われるか知っていますか?ある場合、これらのメソッドを実装するR関数はありますか?


2
統計的に有意な切片項を削除すると、線形モデルのが増加します
単一の説明変数を持つ単純な線形モデルでは、 αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i 切片項を削除すると、近似が大幅に改善されることがわかりました(値は0.3から0.9になります)。ただし、切片の項は統計的に有意であると思われます。R2R2R^2 インターセプトあり: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta 0.46112 0.04595 10.04 <2e-16 *** ...

1
条件付き推論ツリーと従来の決定ツリー
誰でも、従来の決定木アルゴリズム(R など)と比較した条件付き推論木(Rのパッケージctreeからparty)の主な違いを説明できますrpartか? CIツリーの違いは何ですか? 強みと弱み? 更新:私はホーソーンらによるコメントでチーが言及している論文を見てきました。私はそれを完全に追うことができませんでした-順列を使用して変数が選択される方法を説明できますか(例:影響関数とは)? ありがとう!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.