統計とビッグデータ

1

この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 8年前に移行されました。私は2つの変数を持っています、両方ともクラス「数値」から： > head(y) [1] 0.4651804 0.6185849 0.3766175 0.5489810 0.3695258 0.4002567 > head(x) [1] 59.32820 68.46436 80.76974 132.90824 216.75995 153.25551 私はそれらをプロットしましたが、指数モデルをデータに当てはめたい（そしてプロットに追加したい）のですが、Rの多変量データにモデルを当てはめることに関する情報が見つかりません！単変量データに対してのみ、誰かが助けることができますか？どこから始めればいいのかさえわかりません...ありがとう！

21 r

1

逆ウィシャート分布行列の対角線の周辺分布

仮定。対角要素の周辺分布に興味があります。の部分行列の分布に関するいくつかの簡単な結果があります（少なくとも一部はウィキペディアにリストされています）。これから、対角線上の任意の単一要素の周辺分布は逆ガンマであることがわかります。しかし、私は共同分布を推測することができませんでした。DIAG （X ）= （X 11、... 、X P P）Xバツ〜InvWishart（ν、Σ0）バツ〜InvWishart⁡（ν、Σ0）X\sim \operatorname{InvWishart}(\nu, \Sigma_0)診断（X）= （x11、… 、xP P）診断⁡（バツ）=（バツ11、…、バツpp）\operatorname{diag}(X) = (x_{11}, \dots, x_{pp})バツバツX 多分それは次のような構成によって導き出せると思った p （x11| バツ私私、i > 1 ）p （x22| バツ私私、i > 2 ）… p （x（p − 1 ）（p − 1 ）| バツP P）p （xP P）、p（バツ11|バツ私私、私>1）p（バツ22|バツ私私、私>2）…p（バツ（p−1）（p−1）|バツpp）p（バツpp）、p(x_{11} | x_{ii}, i\gt 1)p(x_{22}|x_{ii}, i>2)\dots p(x_{(p-1)(p-1)}|x_{pp})p(x_{pp}), しかし、私はそれをどこにも持ってこなかったし、さらに何か簡単なものを見逃していると疑っています。この「知られている」べきであるように思えますが、私はそれを見つけることができませんでした。

21 distributions probability pdf

4

相関と因果関係の区別は、Googleにどの程度関連していますか？

コンテキストこのサイトでよくある質問は、「一般的な統計上の罪とは何ですか？」です。言及されている罪の1つは、「相関は因果関係を意味する...」リンクを想定していることです次に、5つの賛成票を含むコメントで、「Googleは年に650億ドルを稼ぎ、違いを気にかけない」と提案されています。ライトクイップを過度に分析するリスクがあるため、これは相関と因果関係の区別と区別の実際的な関連性を具体化するための有用な議論のポイントになると思いました。そしておそらく、それは機械学習と相関関係と因果関係の違いとの関係について何かを浮き彫りにすることができます。このコメントは、検索エンジン結果の生成の基礎となるテクノロジーと広告関連のテクノロジーに対処していると思います。質問相関関係と因果関係の区別は、Googleの収入生成にどの程度関連しており、おそらく広告表示関連のテクノロジーと質の高い検索結果による収入の生成に特に焦点を当てていますか？

21 machine-learning causality

3

ポアソン回帰対ログカウント最小二乗回帰？

ポアソン回帰は、ログリンク機能を備えたGLMです。非正規分布のカウントデータをモデル化する別の方法は、ログ（または、log（1 + count）を処理して0を処理する）を使用して前処理することです。対数応答で最小二乗回帰を行う場合、ポアソン回帰に関連していますか？同様の現象を処理できますか？

21 regression poisson-distribution generalized-linear-model

2

Rの関数lmで重みを使用する方法は？

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。誰かweightsがRのlm関数で引数を使用する方法についていくつかのポインタを提供できますか？たとえば、交通量データにモデルを適合させようとしていて、数百の行があり、各行が（異なる人口を持つ）都市を表しているとします。モデルが母集団のサイズに基づいて各観測の相対的な影響を調整するようにしたい場合、単に指定できますweights=[the column containing the city's population]か？それが入るようなベクトルweightsですか？または、別のR関数/パッケージ/アプローチを完全に使用する必要がありますか？人々がこの問題にどのように取り組んでいるか聞いて興味があります-私がそこで見たどの線形モデリングのチュートリアルでもそれがカバーされているのを見ませんでした。ありがとう！

21 r regression

2

学習アルゴリズムの選択方法

いくつかのトレーニングデータに基づいてレコードを2つのカテゴリ（true / false）に分類するプログラムを実装する必要があり、どのアルゴリズム/方法論を検討すべきか疑問に思っていました。人工ニューラルネットワーク、遺伝的アルゴリズム、機械学習、ベイジアン最適化など、多くの選択肢があるようで、どこから始めればよいのかわかりませんでした。したがって、私の質問は次のとおりです。問題に使用する学習アルゴリズムをどのように選択すればよいですか。これが役立つ場合、ここに私が解決する必要がある問題があります。トレーニングデータ：トレーニングデータは、次のような多くの行で構成されます。 Precursor1, Precursor2, Boolean (true/false) 実行には、多くの前駆体が与えられます。その後、さまざまなアルゴリズムからアルゴリズムAを選択し（またはアルゴリズムを動的に生成し）、これらの前駆体のあらゆる可能な組み合わせに適用し、放出される「レコード」を収集します。「レコード」は、いくつかのキーと値のペアで構成されています*。いくつかの素晴らしいアルゴリズムを適用し、これらのレコードを2つのカテゴリ（true / false）に分類します。電車のデータと同じ形式のテーブルを生成します。 Precursor1, Precursor2, Boolean そして、プログラム全体は、正解/不正解の数に基づいて採点されます。 *：「レコード」は次のようになります（これが理にかなっていることを願っています） Record [1...*] Score -Precursor1 -Key -Precursor2 -Value 可能なキーの数は限られています。レコードにはこれらのキーの異なるサブセットが含まれます（一部のレコードにはkey1、key2、key3 ...があり、他のレコードにはkey3、key4 ...などがあります）。実際に2つの学習が必要です。1つはステップ1です。前駆体のペアなどを調べて、比較のためにレコードを発行するために適用するアルゴリズムを決定するモジュールが必要です。もう1つは、ステップ2です。レコードのコレクションを分析し、それらを2つのカテゴリ（true / false）に分類するモジュールが必要です。前もって感謝します！

21 machine-learning bayesian optimization genetic-algorithms

2

回帰における直線性のテストの難しさ

で統計モデリング：二つの文化レオ・ブレイマンは書いて現在適用されている方法は、適合度テストと残差分析を使用してデータモデルの適合をチェックすることです。ある時点で、数年前、私は制御された量の非線形性を持つ7つの次元で回帰問題をシミュレートしました。適合度の標準テストでは、非線形性が極端になるまで線形性を拒否しませんでした。ブライマンは、シミュレーションの詳細を提供していません。彼は、彼の観察を理論的に正当化する論文を引用していますが、論文は未発表です。ブリーマンの主張を裏付ける公開されたシミュレーション結果や理論論文を見た人はいますか？

21 regression goodness-of-fit

7

1つのサンプルT検定で平均の差の信頼区間を解釈する方法は？

SPSSは、「差分平均の信頼区間」という出力を提供します。「100回のうち95回、サンプルの平均差がこれらの境界間で異なる」ことを意味することをいくつかの場所で読んだことがありますが、これは不明瞭です。「平均の差の信頼区間」を説明するために、誰もがより明確な表現を提案できますか？この出力は、1サンプルのt検定のコンテキストで表示されます。

21 confidence-interval

4

推定量と推定量の関係は何ですか？

21 estimation terminology estimators

5

測定理論の紹介

ノンパラメトリックベイジアン（および関連する）テクニックについてもっと知りたいです。私の背景はコンピューターサイエンスです。メジャー理論や確率理論のコースを受講したことはありませんが、確率と統計の正式なトレーニングは限られています。誰もが私が始めるためにこれらの概念の読みやすい紹介を推奨できますか？

21 probability bayesian references theory

3

MaxEnt、ML、Bayes、およびその他の種類の統計的推論方法の比較

私は統計学者ではありません（数理統計学のコースを受講しましたが、それ以上のコースはありません）。最近、情報理論と統計力学を学んでいる間に、「不確実性尺度」/「エントロピー」と呼ばれるものに出会いました。私はKhinchinの派生物を不確実性の尺度として読み、それは私にとって理にかなっています。別の意味があるのは、サンプルの1つ以上の関数の算術平均を知っているときに統計を取得するMaxEntのJaynesの説明です（もちろん、不確実性の尺度としてを受け入れたと仮定）。 − ∑ p私lnp私−∑p私ln⁡p私-\sum p_i\ln p_i そこで、ネット上で検索して、他の統計的推論方法との関係を見つけましたが、神は私を混乱させました。例えば、この論文は、私がそれを正しかったと仮定して、問題の適切な再定式化の下でML推定量を得るだけであることを示唆しています。MacKeyは、彼の本の中で、MaxEntは奇妙なものを与えることができると言います。ベイジアン推論の最初の推定にも使用すべきではありません。など。私は良い比較を見つけるのに苦労しています。私の質問は、MaxEntの弱点と強点の説明および/または適切な参照を、他の方法との定量的比較を伴う統計的推論方法として提供できますか（たとえば、おもちゃモデルに適用する場合）？

21 entropy inference

4

スケールパラメーターの弱く有益な事前分布

私は、スケールがどうあるべきかについて大まかな考えを持っているが、わからないという言い方をしたいときに、スケール正規分布の事前分布として対数正規分布を使用しました（正規分布、t分布など）。それについて多く。その使用は直感的に理にかなっているので使用しますが、他の人が使用するのを見たことはありません。これに隠れた危険はありますか？

21 distributions bayesian modeling prior maximum-entropy

2

モデル選択後の相互検証（エラーの一般化）

注：ケースはn >> pです統計学習の要素を読んでいますが、相互検証を行う「正しい」方法についてさまざまな言及があります（60ページ、245ページなど）。具体的には、私の質問は、モデル検索が行われたときに、k分割CVまたはブートストラップを使用して最終モデルを評価する方法です（個別のテストセットなし）。ほとんどの場合（組み込み機能選択なしのMLアルゴリズム）、機能選択ステップメタパラメーターの選択手順（SVMのコストパラメーターなど）。私の質問：トレーニングセット全体で機能の選択を行い、脇に置いて、機能の選択手順を実行できることを確認しました。次に、kフォールドCVを使用して、特徴選択アルゴリズムが各フォールドで使用され（場合によっては毎回選択される異なる特徴を取得）、エラーが平均化されます。次に、すべてのデータ（確保された）を使用して選択された機能を使用して最終モードをトレーニングしますが、クロス検証からのエラーをモデルの将来のパフォーマンスの推定値として使用します。これは正しいです？クロス検証を使用してモデルパラメーターを選択する場合、モデルのパフォーマンスを後で推定する方法は？上記の＃1と同じプロセスですか、54ページ（pdf）または他の何かに示されているようなネストされたCVを使用する必要がありますか？両方のステップ（機能とパラメーターの設定）を実行しているとき.....その後、何をしますか？複雑なネストされたループ？別のホールドアウトサンプルがある場合、懸念はなくなり、クロス検証を使用して機能とパラメーターを選択できます（パフォーマンスの見積もりはホールドアウトセットから取得されるため、心配する必要はありません）？

21 machine-learning model-selection data-mining cross-validation

2

べき乗則に対するトレンドラインの適合度を測定/議論する方法は？

トレンドラインに合わせようとしているデータがあります。データはべき乗則に従うと信じているので、直線を探して対数軸にデータをプロットしました。これにより、（ほぼ）直線になったため、Excelでべき乗則のトレンドラインを追加しました。統計の初心者なので、私の質問は、「線がかなりよく似ているように見える」から「数値特性はこのグラフがべき法則によって適切に適合していることを証明する」に進む最良の方法は何ですか？バツバツx Excelではrの2乗値を取得できますが、統計に関する知識が限られているため、これが特定の状況で実際に適切かどうかさえわかりません。Excelで作業しているデータのプロットを示す以下の画像を含めました。私はRに少し経験があるので、分析がツールによって制限されている場合、Rを使用してRを改善する方法についての提案を受け入れています。

21 goodness-of-fit power-law

2

ドキュメントの類似性の測定

（テキスト）ドキュメントをクラスタ化するには、ドキュメントのペア間の類似性を測定する方法が必要です。次の2つの選択肢があります。コサイン類似性とTF / IDFを用語の重み付けとして使用して、文書を用語ベクトルとして比較します。カルバック・ライブラー発散など、 f発散を使用して各ドキュメントの確率分布を比較する 1つの方法を他の方法よりも好む直感的な理由はありますか（100語の平均ドキュメントサイズを想定）。

21 information-retrieval