タグ付けされた質問 「references」

特定の主題に関する外部参照(本、論文など)を求める質問。さらに、常により具体的なタグを使用してください。

3
共線性を検出するためのさまざまなアプローチのメリットは何ですか?
共線性が私のOLS回帰の問題であるかどうかを検出したいと思います。分散インフレ係数と条件インデックスは2つの一般的に使用される指標であることを理解していますが、各アプローチのメリットやスコアがどうあるべきかについて明確なものを見つけるのは難しいと感じています。 どのアプローチを行うか、および/またはどのスコアが適切かを示す著名な情報源は、非常に役立ちます。 同様の質問が「多重共線性の特定の測定を好む理由はありますか?」で尋ねられました。しかし、理想的には、引用できるリファレンスの後にいます。

1
別のテストの結果に基づいて仮説テストを実行することに関する論文
p値を解釈するのが困難または不可能であるため、別の統計的検定の結果に基づいて統計的検定を選択することが問題になることはよく知られています(たとえば、別の結果(たとえば、正規性)に基づいて統計的検定を選択する) 。ただし、これは依然として多くのアプリケーションで標準的な方法であり、通常、適用された論文では気づかれず、議論もされていないようです。文献を調べたところ、この現象について実際に説明している論文は見つかりませんでした。 別の統計的検定の結果に基づいて統計的検定を選択することに関連する出版物、特に応用科学者がアクセスできる出版物へのリンクをいただければ幸いです。

3
クレジットの採点に関する優れた本/論文
採点に関する本の推薦を探しています。私はこの問題のすべての側面に興味がありますが、主に次の点に関心があります。それらを構築する方法?どちらが良いことが証明されていますか?2)ニューラルネットワーク。彼らのクレジットスコアリング問題への応用。3)ニューラルネットワークを選択しましたが、他の方法にも興味があります。

4
因果推論のための因果関係の哲学のためのオンラインリソース
疫学者/生物統計学者が因果関係/因果推論の哲学について学ぶのに興味深く、役立つ本、記事、エッセイ、オンラインチュートリアル/コースなどを推薦できますか? 私はエピとバイオスタットのフレームワークから実際に因果関係を推論することについてはかなり知っていますが、この作業の根底にある動機となる哲学について何か学びたいと思います。たとえば、ヒュームが最初に反事実として解釈される可能性のあるアイデアについて話したことは私の理解です。 私は基本的に哲学についてのトレーニングや経験はないので、最初に比較的紹介的なものが必要ですが、より複雑であるが重要/基礎となるテキスト/著者の推奨事項にも興味があります(ただし、紹介ではないことを示してください)。 これがクロスバリデーションのトピックから外れていないことを願っていますが、皆さんの何人かが以前に私と同じボートに乗っていて、お気に入りのリソースを共有できることを願っています。

2
メタ分析における固定効果モデルと変量効果モデルの正当化
私は、「不均一性が低かったため、固定効果モデルが選択された」という記述に沿って、固定効果モデルの使用を正当化しようとするいくつかの出版物を読みました。しかし、それはまだデータ分析への不適切なアプローチかもしれないと心配しています。 これが間違いであるかどうか、またなぜそうであるかを論じる理由や出版物はありますか?

1
Pitman–Koopman–Darmoisの定理の学部レベルの証明
Pitman–Koopman–Darmoisの定理は、確率分布のパラメーター化されたファミリーからのiidサンプルが、スカラーコンポーネントの数がサンプルサイズとともに増加しない十分な統計量を認める場合、指数ファミリーであると述べています。 教科書や小説の説明紙に証拠がありますか? なぜそれらの3人にちなんで名付けられたのですか?


2
参照リクエスト:働くデータサイエンティストのための古典的な統計
私は、回帰、その他の機械学習タイプのアルゴリズム、およびプログラミング(データ分析と一般的なソフトウェア開発の両方)において確かな経験を持つ、データサイエンティストとして働いています。私の仕事のほとんどは、予測精度(さまざまなビジネス上の制約の下での作業)のためのモデルの構築と、自分(および他の人)の仕事をサポートするデータパイプラインの構築に焦点を当てています。 私は統計学の正式な訓練を受けておらず、大学の教育は純粋な数学に焦点を当てています。そのため、古典的なトピックの多く、特に人気のあるさまざまな仮説検定と推論手法の学習に失敗しました。 私の経歴と経験レベルを持つ人に適した、これらのトピックへの参照はありますか?私は数学的な厳密さを扱い(そして理解し)、アルゴリズムの観点も楽しむことができます。私は、数学とプログラミングの両方(またはいずれか)に焦点を当てた、読者ガイド付きの演習を提供するリファレンスを好む傾向があります。

2
主成分分析は株価/非定常データに使用できますか?
私は「ハッカーのための機械学習」という本の例を読んでいます。最初に例について詳しく説明し、次に私の質問について話します。 例: 25株価の10年間のデータセットを取得します。25の株価でPCAを実行します。主成分をダウジョーンズインデックスと比較します。PCとDJIの非常に強い類似性を観察します! 私が理解していることから、この例は、私のような初心者がPCAのツールがいかに効果的であるかを理解するのに役立つおもちゃのようなものです! しかし、別のソースから読むと、株価は非定常であり、株価でPCAを実行することは不合理であることがわかります。私が読んだソースは、株価の共分散とPCAを計算するという考えを完全にばかげています。 質問: この例はどのようにうまく機能しましたか?株価のPCAとDJIは非常に近いものでした。そしてデータは2002-2011年の株価からの実際のデータです。 誰かが静止/非定常データを読み取るための素晴らしいリソースを私に指摘できますか?私はプログラマーです。数学の知識が豊富です。しかし、私は3年間真剣な数学をしていません。ランダムウォークなどについてまた読み始めました。

2
機器がない場合の観測データのモデルについて、私たちは何と言えますか?
過去に、観測データ(つまり、制御された実験によって生成されなかったデータ)に回帰(およびパネルモデルやGLMなどの関連モデル)が使用されている多くの分野で、公開された論文に関して質問されてきました。 、多くの場合-常にではありませんが-データは時間の経過とともに観測されますが、計測変数を導入する試みは行われません。 私はいくつかの批判をしました(たとえば、重要な変数が欠落している可能性のあるバイアスの問題について説明するなど)が、ここにいる他の人はこのトピックについて私よりもはるかに知識があるので、私は尋ねると思いました: そのような状況で、関係について結論を出そうとすることの主な問題/結果(特に、因果的な結論に限定されない)は何ですか? 機器がない場合にこのようなモデルに適合する研究で、何か役立つことはありますか? そのようなモデリングに関する問題についての良い参考文献(本または論文)は何ですか(多くの場合、質問する人はさまざまな背景を持っているため、多くの統計がないものもあるため、批評で参照する可能性があります)紙?器具に関する注意/問題についての議論も有用でしょう。 (インストゥルメンタル変数に関する基本的なリファレンスはここにありますが、そこに追加するものがあれば、それも役立ちます。) 楽器を見つけて使用するための良い実用的な例へのポインタはおまけですが、この質問の中心ではありません。 [このような質問が出てきたら、ここで他の人に良い答えを指摘するでしょう。入手したら1つまたは2つの例を追加できます。]

1
統計モデル表記の「標準」はありますか?
たとえば、Bugsのマニュアルや、LeeとWagenmakersによる近刊の本(pdf)やその他の多くの場所では、ほとんどの統計モデルを簡潔に説明するのに使用できるという点で、私には非常に柔軟な表記法が使用されています。この表記の例は次のとおりです。 y私〜二項(p私、n私)ログ(p私1 − p私)= b私b私〜通常(μp、σp)yi∼Binomial(pi,ni)log⁡(pi1−pi)=bibi∼Normal(μp,σp) y_i \sim \text{Binomial}(p_i,n_i) \\ \log(\frac{p_i}{1 - p_i}) = b_i \\ b_i \sim \text{Normal}(\mu_p,\sigma_p) これは、予測子はないがグループの階層ロジスティックモデルを表します。モデルを説明するこの方法は、あなただけで事前確率を追加する必要があります。このモデル記述完全ベイズを作るために、例えば、frequentistとベイズモデルを記述するためにも同様にうまく動作するように思えるμ Pとσ のp。i = 1 … ni=1…ni = 1\dots n μpμp\mu_pσpσp\sigma_p このタイプのモデル表記/形式は、いくつかの記事または本で詳細に説明されていますか? この表記法を使用してモデルを記述したい場合は、さまざまな方法があり、他の人をフォローしたり参照したりするための包括的なガイドがあると非常に便利です。人々がこのタイプの表記法をどのように使用するかで私が見つけたいくつかの違い: ディストリビューションとは何ですか?たとえば、などを見たことがあります。N、N 、Norm 、NormalN,N,Norm,Normal\mathcal{N},\text{N},\text{Norm},\text{Normal} インデックスをどのように扱いますか?例えば、私は、y i [ j ]、y jを見た| 私などy私はjyijy_{ij}y私[ j ]yi[j]y_{i[j]}yj|iyj|iy_{j|i} μμ\mu 追加質問:この表記には名前がありますか?(より良い名前がないため、私が書い たブログ投稿では、確率分布中心の慣習と呼んでいました...)

1
最尤の一貫性と漸近正規性の一般定理
最尤推定量の漸近特性に関する結果の良いリファレンスに興味があります。モデル考えますここで、は次元密度で、サンプルに基づいて、MLEであるからどこのある"真の"値。興味のある不規則な点が2つあります。{fn(⋅∣θ):θ∈Θ,n∈N}{fn(⋅∣θ):θ∈Θ,n∈N}\{f_n(\cdot \mid \theta): \theta \in \Theta, n \in \mathbb N\}fn(x∣θ)fn(x∣θ)f_n(\mathbf x \mid \theta)nnnθ^nθ^n\hat \theta_nX1,…,XnX1,…,XnX_1, \ldots, X_nfn(⋅∣θ0)fn(⋅∣θ0)f_n(\cdot \mid \theta_0)θ0θ0\theta_0θθ\theta データははないため、に関するフィッシャー情報はよりも遅い速度で発生します。X1,…,XnX1,…,XnX_1, \ldots, X_nθθ\thetannn ΘΘ\Thetaは有界セットであり、正の確率では境界上にあります。境界は「より単純な」モデルに対応するため、が境界上にあるかどうかに特に関心があります。θ^nθ^n\hat \theta_nθ0θ0\theta_0 私の特定の質問は まかせに対応する観測フィッシャー情報表し、と仮定の内部にある。はどのような条件下でとして漸近的に正常ですか?特に、規則性の条件は通常のものと似ていますが、関連する変更はある意味でですか?Jn(θ)Jn(θ)J_n(\theta)θθ\thetaθ0θ0\theta_0ΘΘ\Theta[Jn(θ^n)]1/2(θ^n−θ0)[Jn(θ^n)]1/2(θ^n−θ0)\left[J_n(\hat \theta_n)\right]^{1/2}(\hat \theta_n - \theta_0)n→∞n→∞n \to \inftyJn(θ^n)→∞Jn(θ^n)→∞J_n(\hat \theta_n) \to \infty 代わりに、が境界上にあり、が正の確率で発生することを思い出してください-具体的には、混合効果モデルすることができます。どのような条件の下ではありません(ほぼ確実にあるいは確率で)と条件がどうなるか下に最終的に(これはおそらく、混合効果モデルのために失敗しますが、対応する「オラクル」プロパティのLASSOと関連する推定値なので、おそらく一般的な結果を求めるには多すぎます)?θ0θ0\theta_0θ^n=θ0θ^n=θ0\hat \theta_n = \theta_0Yij=μ+βi+ϵijYij=μ+βi+ϵijY_{ij} = \mu + \beta_i + \epsilon_{ij}σ^2β=0σ^β2=0\hat \sigma_{\beta}^2 = 0θ^n→θ0θ^n→θ0\hat \theta_n \to \theta_0θ^n=θ0θ^n=θ0\hat …

1
ロジットの線形性の違反に対するロジスティック回帰のロバスト性の調査
バイナリの結果(開始と開始ではない)でロジスティック回帰を行っています。私の予測因子の組み合わせは、すべて連続変数または二分変数です。 Box-Tidwellアプローチを使用すると、私の連続予測子の1つがロジットの線形性の仮定に違反する可能性があります。適合度の統計から、適合度に問題があるという兆候はありません。 その後、元の連続変数を次のように置き換えて、回帰モデルを再度実行しました。1つ目は平方根変換、2つ目は変数の二分法バージョンです。 出力を調べると、適合度はわずかに向上しているようですが、残差が問題になります。パラメータ推定値、標準誤差、およびは比較的似ています。データの解釈は、3つのモデル間で私の仮説の観点からは変わりません。exp(β)exp⁡(β)\exp(\beta) したがって、私の結果の有用性とデータの解釈の観点から、元の連続変数を使用して回帰モデルを報告するのが適切なようです。 私はこれを思っています: ロジスティック回帰は、ロジット仮定の線形性の潜在的な違反に対して堅牢なのはいつですか? 上記の例を考えると、元の連続変数をモデルに含めることは許容できると思われますか? モデルがロジットの線形性の潜在的な違反に対してロバストであることを受け入れることが十分である場合に推奨するためのリファレンスまたはガイドはありますか?

4
制限付きボルツマンマシン(RBM)の優れたチュートリアル
私は制限付きボルツマンマシン(RBM)を研究していて、RBMのパラメーターに関する対数尤度計算を理解するのにいくつか問題があります。RBMに関する多くの研究論文が発表されていますが、派生物の詳細な手順はありません。オンラインで検索した後、このドキュメントでそれらを見つけることができました。 フィッシャー、A。&イゲル、C。(2012)。制限付きボルツマンマシンの紹介。L. Alvarez et al。(編集):CIARP、LNCS 7441、14〜36ページ、Springer-Verlag:ベルリン-ハイデルベルク。(pdf) ただし、このドキュメントの詳細は私にはあまりにも高度です。誰かがRBMに関する優れたチュートリアル/講義ノートのセットを教えてくれますか? 編集:@David、わかりにくいセクションを以下に示します(26ページの式29): ∂lnL(θ | v)∂w私はj= − ∑hp (h | v )∂E(v 、h )∂w私はj+ ∑v 、hp (v 、h )∂E(v 、h )∂w私はj= ∑hp (h | v )h私vj− ∑vp (v )∑hp (h | v )h私vj=p (H私= 1 | v )vj− ∑vp (v )p (H私= 1 | v …
10 references  rbm 

3
因子分析で因子によって読み込まれるアイテム(変数)が2つ(またはそれ以下)だけであっても問題ありませんか?
SPSSで因子分析を行った20個の変数のセットがあります。研究のために、私は6つの要因を開発する必要があります。SPSSは、8つの変数(20のうち)が低い重みでロードされているか、いくつかの要因によって等しくロードされていることを示したため、それらを削除しました。残りの12個の変数は、6つの要素の2つのペアで読み込まれています。これは完全な構造です。私が望んでいたとおりですが、私と一緒に働いている教授の1人が、なぜ(またはどのような条件下で)正当化するのかを求めています因子分析は、因子ごとに3つ以上の項目がロードされた結果で有用であることが一般に知られているため、因子ごとに2項目のみを保持することが適切です。 誰かがこの問題について、できれば公開されたリファレンスも助けてくれますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.