統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

4
Rで視覚的に魅力的な密度ヒートマップを生成する
Rにヒートマップを生成するための一連の機能があることは知っていますが、問題は視覚的に魅力的なマップを作成できないことです。たとえば、下の画像は、避けたいヒートマップの良い例です。最初のものは明らかに詳細に欠けていますが、もう1つは(同じ点に基づいて)あまりにも詳細すぎて有用ではありません。両方のプロットは、spatstat Rパッケージのdensity()関数によって生成されています。 どうすればプロットに「フロー」を追加できますか?私が目指しているのは、市販のSpatialKey(スクリーンショット)ソフトウェアの結果が生成できる外観の詳細です。 この方向に私を連れて行くことができるヒント、アルゴリズム、パッケージまたはコードの行はありますか?

2
帰無仮説と対立仮説は網羅的である必要がありますか?
私は彼らが徹底的でなければならないと主張することを何度も見ました(そのような本の例は常にそのように設定されていました、実際にそうでした)、一方で私は彼らが排他的であるべきだと言う本を何度も見ました(例えば、としてμ 1 = μ 2とH 1としてμ 1 > μ 2)徹底的な問題を明確にせず。この質問を入力する前にだけ、ウィキペディアのページで「より強力な声明」を見つけました。「代替案は帰無仮説の論理否定である必要はありません」。H0H0\mathrm{H}_{0}μ1=μ2μ1=μ2\mu_1=\mu_2H1H1\mathrm{H}_{1}μ1>μ2μ1>μ2\mu_1>\mu_2 より経験豊富な誰かが真実を説明できますか?私はそのような違いの(歴史的?)理由にいくらか光を当てることに感謝します(本は結局統計学者、すなわち科学者ではなく、哲学者によって書かれました)。

4
トレーニングステップと評価ステップの間に非対称性があるのはなぜですか?
特に自然言語処理では、機械学習はトレーニングステップと評価ステップの2つのステップで進行し、異なるデータを使用する必要があることはよく知られています。どうしてこれなの?直観的に、このプロセスはデータの過剰適合を回避するのに役立ちますが、私はこれが事実である(情報理論的)理由を見ることはできません。 それに関連して、トレーニングに使用するデータセットの量と評価に使用する量について、それぞれ2/3や1/3のように、いくつかの数値が見られました。特定の分布を選択するための理論的根拠はありますか?

3
どの病院を選択すべきですか?1つは成功率が高いが、もう1つは全体的な成功率が高い
統計の先生が次の問題について言ったことについて質問があります。私の質問は、この状況でのシンプソンのパラドックスの発生についてでさえありません。私の質問は、A)とF)ではなくA)とD)が正しい答えであるという私の教授の主張についてです。彼は言った: 「タイプE手術の成功率は非常に低いため、それらは困難であり、珍しいことではないと結論付けることができます。したがって、MercyはHopeと比較してより良い機器/医師を持っていると思われます。」 私は、マーシーが「より困難な手術」を行っていることを彼がどのように統計的に推測できるのか理解していない。マーシーは、タイプEの手術で明らかに成功率が高いのですが、なぜこれが「より困難な手術」を意味するのでしょうか。私はこの問題の言葉遣いにうんざりしていると思いますが、教授は困惑していません。なぜ私が間違っているのか、どのようにこれを教授に説明できるのかを誰かが説明できますか? 町にはMercyとHopeという2つの病院があります。操作を行うには、これらのいずれかを選択する必要があります。手術チームの成功に基づいて決定を下すことにします。幸いなことに、新しい医療計画の下で、病院は手術の成功に関するデータを提供し、5つの広範な手術カテゴリーに分類されています。2つの病院について次のデータを取得するとします。 Mercy Hospital Type A B C D E All Operations 359 1836 299 2086 149 4729 Successful 292 1449 179 434 13 2366 Hope Hospital Type A B C D E All Operations 88 514 222 86 45 955 Successful 70 391 113 12 2 588 …

1
相互検証は検証セットの適切な代替物ですか?
テキスト分類では、約800サンプルのトレーニングセットと約150サンプルのテストセットがあります。テストセットは使用されたことがなく、最後まで使用されるのを待っています。 私は800のサンプルトレーニングセット全体を使用し、分類器と機能を調整および微調整しながら10倍の相互検証を行います。つまり、個別の検証セットはありませんが、10倍に達するたびに検証セットが自動的に選択されます。 すべてに満足し、評価の最終段階に入りたいと思ったら、800サンプル全体で分類器をトレーニングします。150サンプルのテストセットでテストします。 テキスト分類でのクロス検証のそのような使用法を理解していますか?このプラクティスは有効ですか? クロス検証に関するもう1つの質問は次のとおりです。 10倍ではなく、パフォーマンスの一般的な指標として1つを省いてみました。除外する場合、f1 / precision / recallに関する情報を取得することはできないため、leave-one-outの精度と10倍のメトリクスの関係はどうなっているのでしょうか? どんな洞察も大歓迎です。 編集: これは、相互検証の非常に良い紹介です。また、他の研究論文も参照しています。

2
回帰におけるp値の意味
一部のソフトウェアパッケージ(Mathematicaなど)で線形回帰を実行すると、モデル内の個々のパラメーターに関連付けられたp値が得られます。、例えば、結果生成する線形回帰の結果関連付けられたp値有するであろうと一つ。a ba x + bax+bax+baaabbb これらのパラメーターについて、これらのp値は個々に何を意味しますか? 回帰モデルのパラメーターを計算する一般的な方法はありますか? 各パラメーターに関連付けられたp値をモデル全体のp値に結合できますか? この質問を本質的に数学的に保つために、確率の観点からp値の解釈のみを求めています。

12
値のストリームの基本的な統計を計算するコマンドラインツール[終了]
標準入力から(ASCII形式の)数値のフローを受け入れ、最小、最大、平均、中央値、RMS、変位値など、このフローの基本的な記述統計を提供するコマンドラインツールはありますか?出力は、コマンドラインチェーンの次のコマンドで解析できることを歓迎します。作業環境はLinuxですが、他のオプションも歓迎します。

3
なぜジェフリーズの事前情報は情報価値がないと見なされるのですか?
ジェフリーズ前に考えてみ、ここでiはフィッシャー情報です。p(θ)∝|i(θ)|−−−−√p(θ)∝|i(θ)|p(\theta) \propto \sqrt{|i(\theta)|}iii 私はこの事前情報が情報価値のない事前情報として言及されているのを見続けていますが、なぜそれが情報価値がないのかという議論を見たことはありません。結局のところ、それは定数の前ではないので、他の引数が必要です。 再パラメータ化に依存しないことを理解しているため、次の質問に進みます。フィッシャー情報の決定要因は再パラメーター化に依存しないということですか?フィッシャーの情報は間違いなく問題のパラメーター化に依存するからです。 ありがとう。
27 bayesian  prior 


3
Rのシンボリック計算?
Rでシンボリック計算を行うことが可能かどうか疑問に思っていましたか? 例えば、 3Dガウス分布のシンボリック共分散行列の逆行列を得たいと思っていました。 Rでシンボリックな統合と微分を行うこともできますか?
27 r 

2
Rを使用した時系列のSTLトレンド
私はRと時系列分析を初めて使用します。私は長い(40年)毎日の気温の時系列の傾向を見つけようとしており、さまざまな近似を試みました。1つ目は単純な線形回帰で、2つ目は黄土による時系列の季節的分解です。 後者では、季節成分が傾向よりも大きいようです。しかし、どのようにトレンドを定量化できますか?その傾向がどれほど強いかを伝える数字をお願いします。 Call: stl(x = tsdata, s.window = "periodic") Time.series components: seasonal trend remainder Min. :-8.482470191 Min. :20.76670 Min. :-11.863290365 1st Qu.:-5.799037090 1st Qu.:22.17939 1st Qu.: -1.661246674 Median :-0.756729578 Median :22.56694 Median : 0.026579468 Mean :-0.005442784 Mean :22.53063 Mean : -0.003716813 3rd Qu.:5.695720249 3rd Qu.:22.91756 3rd Qu.: 1.700826647 Max. :9.919315613 …
27 r  time-series  trend 

4
CARTを使用する際の「変数重要度」の測定/ランク付け方法 (具体的にはRの{rpart}を使用)
rpart(R内)を使用してCARTモデル(特に分類ツリー)を構築する場合、モデルに導入されたさまざまな変数の重要性を知ることはしばしば興味深いです。 したがって、私の質問は次のとおりです。CARTモデルの参加変数の変数の重要度をランク付け/測定するための一般的な尺度は 何ですか?Rを使用してこれをどのように計算できますか(たとえば、rpartパッケージを使用する場合) たとえば、ダミーコードを作成して、ソリューションを示します。この例は、変数x1とx2が「重要」であり、(ある意味では)x1がx2よりも重要であることを明確にするように構造化されています(x1はより多くのケースに適用されるため、データの構造により大きな影響を与えるため、次にx2)。 set.seed(31431) n <- 400 x1 <- rnorm(n) x2 <- rnorm(n) x3 <- rnorm(n) x4 <- rnorm(n) x5 <- rnorm(n) X <- data.frame(x1,x2,x3,x4,x5) y <- sample(letters[1:4], n, T) y <- ifelse(X[,2] < -1 , "b", y) y <- ifelse(X[,1] < 0 , "a", y) require(rpart) fit <- …

3
AICは異なるタイプのモデル間で比較できますか?
AIC(赤池の情報量基準)を使用して、Rの非線形モデルを比較しています。異なるタイプのモデルのAICを比較することは有効ですか?具体的には、glmで近似されたモデルと、glmer(lme4)で近似されたランダム効果項を持つモデルを比較しています。 そうでない場合、そのような比較を行う方法はありますか?または、アイデアは完全に無効ですか?

3
負の確率/確率の振幅には、量子力学以外の用途がありますか?
量子力学は、主に干渉パターン、波/粒子の双対性、および一般的にそのような奇妙なことを説明するために、負/虚数に確率理論を一般化しました。しかし、ベイズ確率の非可換一般化としてより抽象的に見ることができます(Terrence Taoからの引用)。私はこれらのことに興味がありますが、決して専門家ではありません。これには、量子力学以外の用途がありますか?ちょっと興味があるんだけど。

2
相関はデータの定常性を前提としていますか?
市場間分析は、異なる市場間の関係を見つけることにより、市場の行動をモデル化する方法です。多くの場合、相関関係は、S&P 500と30年物米国債などの2つの市場間で計算されます。これらの計算は多くの場合、価格データに基づいていないため、定常時系列の定義に適合しないことは誰にとっても明らかです。 (代わりにリターンを使用して)可能な解決策はありませんが、データが非定常である相関の計算は有効な統計計算でもありますか? このような相関計算はやや信頼できない、または単なるナンセンスだと思いますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.