タグ付けされた質問 「references」

特定の主題に関する外部参照(本、論文など)を求める質問。さらに、常により具体的なタグを使用してください。

4
内部対外部の交差検証とモデル選択
私の理解では、相互検証とモデル選択により、次の2つのことに対処しようとしています。 P1。サンプルでトレーニングする際の母集団の予想損失を推定する P2。この推定の不確実性(分散、信頼区間、バイアスなど)を測定して報告する 標準的な方法では、反復検証を繰り返します。これにより、推定量の分散が減少するためです。 ただし、レポートと分析に関しては、次の理由により、内部検証の方が外部検証よりも優れていると理解しています。 報告することをお勧めします: 推定器の統計。たとえば、完全なサンプル(この場合はCVサンプル)の信頼区間、分散、平均など。 報告よりも: 次の理由により、元のサンプルのホールドアウトサブセットでの推定量の損失: (i)これは単一の測定値になります(CVで推定量を選択した場合でも) (ii)この単一の測定の推定量は、ホールドアウトセット用のスペースを確保する必要があるため、最初のサンプルよりも小さいセット(CVセットなど)でトレーニングされていました。これにより、P1のより偏った(悲観的な)推定になります。 これは正しいです?そうでない場合はなぜですか? バックグラウンド: サンプルを2つのセットに分割することを推奨する教科書は簡単に見つかります。 CVのその後繰り返しに分けて設定し、電車やバリデーションセット。 ホールドアウトのみ推定性能を報告するために端部に使用される(テスト)セット、 私の目標は、この投稿の冒頭で問題P1とP2に実際に対処することだと考えて、この教科書アプローチのメリットと利点を理解する試みです。CVサンプルの分析はより有益であるため、ホールドアウトテストセットのレポートは悪い習慣であるように思えます。 ネストされたKフォールドと繰り返しKフォールド: 原則として、ホールドアウトと通常のK-foldを組み合わせて、ネストされたK-foldを取得でき ます。これは、私たちは私たちの推定量の変動を測定できるようになるが、それは訓練された合計モデルの同じ数(折り目の合計#)のためのものである推定もたらすであろうK倍を繰り返すように私には見え少ないバイアスとより正確なネストされたK-よりを折ります。これを見るには: 繰り返しKフォールドは、同じKのネストされたKフォールドよりもサンプル全体の大部分を使用します(つまり、バイアスが低くなります) 100回の反復では、ネストされたKフォールド(K = 10)で推定器の10個の測定値しか得られませんが、Kフォールドで100個の測定値が得られます(測定値を増やすとP2の分散が低くなります) この推論の何が問題になっていますか?

1
古い本の統計表は意図的に間違っていますか?
昔(コンピューター時代以前の)本では、盗作を思いとどまらせるために、付録に示されている理論的な分位数の最後の桁が不正確だったことを覚えていました(別の本に表があれば最後の数字があなたの数字と同じ場合は、その著者はあなたのテーブルを盗用しているに違いありません)。 私はこの物語のソース、またはその言及へのリンクを見つけようとしていますが、何時間も検索した後、私は見つけることができませんでした。

1
最先端のストリーミング学習
私は最近大規模なデータセットを扱っており、ストリーミング方法に関する多くの論文を見つけました。いくつか例を挙げると: Follow-the-Regularized-Leader and Mirror Descent:等価定理とL1正則化(http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf) ストリーミング学習:ワンパスSVM(http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf) Pegasos:SVMのプライム推定サブGrAdient SOlver http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf またはここ:SVMは一度に1つの例をストリーム学習できますか? ストリーミングランダムフォレスト(http://research.cs.queensu.ca/home/cords2/ideas07.pdf) しかし、私はそれらが互いにどのように比較されるかに関するドキュメントを見つけることができませんでした。私が読んだすべての記事は、異なるデータセットで実験を行っているようです。 私は、sowia-ml、vowpal wabbitについて知っていますが、それらは既存の膨大な量のメソッドと比較して、ごく少数のメソッドを実装しているようです! あまり一般的ではないアルゴリズムのパフォーマンスは十分ではありませんか?できるだけ多くの方法をレビューしようとしている論文はありますか?


1
RのGLM後の因子のレベルの比較
ここに私の状況についての少しの背景があります。私のデータは、捕食者が首尾よく食べた獲物の数を参照しています。各トライアルでは獲物の数が限られているため(25個が利用可能)、使用可能な獲物の数を表す「サンプル」列(各トライアルでは25個)と、成功の数である「カウント」何匹の獲物が食べられたか)。プロポーションデータに関するRブック(578ページ)の例に基づいて分析を行いました。説明変数は体温(私は因子として扱った4つのレベル)、および捕食者の性別(明らかに、男性または女性)です。だから私はこのモデルになります: model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) Analysis of Devianceテーブルを取得した後、温度と性別(相互作用ではない)が獲物の消費に大きな影響を与えることがわかりました。さて、私の問題:どの温度が異なるかを知る必要があります。つまり、4つの温度を互いに比較する必要があります。線形モデルがあれば、TukeyHSD関数を使用しますが、GLMを使用しているため、使用できません。パッケージMASSを調べて、コントラストマトリックスを設定しようとしましたが、何らかの理由で機能しません。提案や参考文献はありますか? モデルを明確にするのに役立つ場合は、モデルから取得した要約を次に示します... y <- cbind(data$Count, data$Sample-data$Count) model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) > summary(model) # Call: # glm(formula = y ~ Temperature + Sex + Temperature * Sex, family=quasibinomial, data=data) # Deviance Residuals: # Min 1Q Median 3Q Max …

3
Rは実動(デプロイ済み)コードに対して実行可能か
GoogleやFacebookなど、Rを研究に使用している他の多くの企業に関する記事を多数読んでいます。私が読んだもう1つのシナリオは、Rを使用して分析ソリューションのプロトタイプを作成し、別の言語で再実装する企業です。 実際の生産分析コードにRを使用している企業に関する文献を探しています。ユースケースは、リモートサーバーで実行されたRスクリプトから応答を取得するWebページを介してユーザーが対話する推奨システムです。そのようなレポートを見つけるのに苦労しているという事実は、それが望ましくないのではないかと思うようになります。もしそうなら、なぜですか?
25 r  references 

5
コピュラの入門書
しばらくの間、私はセミナーのためにコピュラに関する良い入門書を探していました。私は理論的な側面について話す多くの資料を見つけていますが、それは良いことですが、それらに移る前に、このトピックに関する優れた直観的な理解を構築したいと考えています。 誰もが初心者に良い基盤を提供する良い論文を提案できますか(私は統計の1-2コースを持ち、周辺、多変量分布、逆変換などを合理的な範囲で理解しました)?

6
Rを使用した統計のリファレンスブック–存在し、何を含めるべきですか?
バックグラウンド これについては多くの議論があるので、StackExchangeの以前のトレッドから、そして猛烈にグーグルで答えを見つけることができると思いました。Rで(バイオ)統計のリファレンスブックを1つだけ見つけようとして半日使った後、私はまったく混乱し、あきらめなければなりませんでした。たぶん、無料の資料を組み合わせると、現時点で購入できるどの本よりも優れているかもしれません。調べてみましょう。 インターネットにはR言語の優れた無料の文献がたくさんあります。そのため、ほとんどの場合オフィスの装飾として使用される平凡な本にお金を払っても意味がありません。Rのホームサイトには、Rに関連する書籍が一覧表示されており、多くの書籍があります。より正確に言うと、115。そのうちの1つだけが「スタンドアロン統計リファレンスブック」という言葉で宣伝されています。現在8歳であり、古い可能性があります。Sを使用したModern Applied Statisticsの第4版はさらに古いです。R Bookは、参照が不足しているため、コードの形式が適切でなく、仕上がりが粗末であるため、あまりにも基本的でお勧めできません。 しかし、私は1冊の本を探しています。これは、実用的な統計(何よりもまず)とR(二次)のスタンドアロン参照として使用できます。本は私の本棚に置いて、本棚のほこりの代わりに注釈、コーヒーの染み、脂っこい指紋を集めます。これは、これまで使用してきた無料のpdfのコレクションを置き換えるものであり、Rに優れた参照ライブラリが付属していることを忘れないでください。“ 適切なアプローチは何ですか?」、「なぜですか?「技術的には、どのように機能しますか?」は、「Rでそれを行う方法」よりも多くの難問です。 私は生態学者なので、生物統計学への応用にほとんど興味があります。しかし、これらのことはしばしば結びついているため、学際的な一般的な参考文献は私にとって最も価値があるでしょう。 タスク そのような本が存在する場合(疑わしい)、本の名前(回答ごとに1つのみ)と、その本のトピックのリファレンスブックとして指定する理由を説明する本の短いレビューを提供してください。この質問は既存のものとそれほど違わないので、答えにこのトレッドを使用してください。また、理想的な参考書の機能としてそれらをリストできるように、本の欠陥をリストすることもできます。 私の質問は、Rの統計(ほとんどの種類)のリファレンスブックには何を含めるべきですか? いくつかの最初の考えは、次の一般的な機能です(更新してください)。 レンガのように厚い 簡潔だが理解しやすい 数字で埋める(提供されたRコード付き) テキストから最も重要な詳細を説明するわかりやすい表と図 最も重要な方程式を含む統計/方法に関するわかりやすい説明テキスト。 各アプローチの良い例(Rコードを使用) 広範な最新の参照リスト タイプミスの最小数 目次 私は統計学者ではないので、質問に答えるためにこの(存在しない?)本が必要になるので、内容について書くのは難しいです。のでR帳がはっきりRと統計のための参考書になろうとするが、しばしば批判されて、私は、スタンドアロンR統計参考書の目次するための出発点として、本から目次をコピーしました。追加タスク:目次に追加、提案、削除などを提供してください。 入門 R言語の要点 データ入力 データフレーム グラフィックス テーブル 数学 古典的なテスト 統計モデリング 回帰 分散分析 共分散分析 一般化線形モデル カウントデータ テーブル内のデータをカウントする 割合データ バイナリ応答変数 一般化された加算モデル 混合効果モデル 非線形回帰 ツリーモデル 時系列分析 多変量統計 空間統計 生存分析 シミュレーションモデル グラフィックスの外観を変更する …
25 r  references 

5
因果分析の概要
因果分析を紹介する良い本は何ですか?私は、因果分析の原理を説明し、これらの原理を適用するために異なる統計的方法をどのように使用できるかを示す紹介を考えています。

3
情報価値のない先行理論の歴史
私はベイズ統計学コース(経済学修士課程)で情報価値のない事前の短い理論エッセイを書いており、この理論の発展におけるステップを理解しようとしています。 これまでに、私のタイムラインは、ラプラスの無関心の原則(1812)、非不変の事前分布(ジェフリーズ(1946))、ベルナルドの参照事前(1979)の3つの主要なステップで構成されています。 私の文献レビューから、無関心の原理(ラプラス)は以前の情報の欠如を表すために使用される最初のツールであったが、ジェフリーズが彼の方法を導入した40代まで不変性の欠落した要件がその放棄につながったことを理解しました不変性の望ましい特性。70年代の不適切な事前の不注意な使用に起因する周辺化のパラドックスの発生により、ベルナルドはこの問題に対処するために彼の参照事前理論を練り上げました。 文献を読んで、すべての著者は異なる貢献を引用します:Jaynesの最大エントロピー、BoxおよびTiaoのデータ変換された尤度、Zellner、... あなたの意見では、私が欠けている重要なステップは何ですか? 編集:誰かが必要な場合は、(メイン)参照を追加します: 1)フォーマルルールによる事前選択、Kass、Wasserman 2)非情報的事前分布のカタログ、Yang、Berger 3)情報量の少ないベイジアンの事前解釈と構造とアプリケーションの問題

7
統計の技術的ではないが詳細な記事に対する推奨事項
この質問のインスピレーションは、故Leo-Breimanの有名な記事Statistical Modeling:The Two Cultures(available open access)から来ています。著者は、データを分析するための2つの異なるアプローチとして見ているものを比較し、古典的な統計と機械学習の重要なアイデアに触れています。ただし、この記事は幅広い読者に理解できます-おそらく、博士レベルで統計を追求したか、入門コースのみを受講したかどうかに関係なく、データを扱う人なら誰でも理解できます。また、記事は刺激的です。つまり、議論を容易に生み出します(同じ号で発行された一連の活発な解説によって証明されています)。 これらの品質を備えた記事をもっと見つけたいです。つまり、次の記事: 統計/データ分析の基本概念に触れる 研究フォーカスと正式な統計トレーニングのばらつきの観点から幅広い聴衆が理解できる 洞察であれ論争であれ、議論を刺激する
24 references 

1
k-fold交差検定を発明したのは誰ですか?
私は、k-fold cross-validationが導入された論文への参照を探しています(主題に関する単なる学術的な参照ではありません)。おそらく、最初の論文を明確に特定するのは時間の霧にさかのぼりすぎているため、このアイデアが使用された初期の論文は興味深いものになります。 私が知っている最も早いのは PA LachenbruchおよびMR Mickey、「判別分析におけるエラー率の推定」、Technometrics、vol。10、いいえ。1、1〜12ページ、1968年2月。 そして A. LuntzおよびV. Brailovsky、「認識の統計的手順で得られた文字の推定について(ロシア語)」、Techicheskaya Kibernetica、vol。3、1969。 しかし、私が知る限り、それらはleave-one-out交差検証のみをカバーしています(私の技術的なロシア語はそれだけではありません; o)。

13
計量経済学の教科書?
どの優れた計量経済学の教科書を勧めますか? 編集:さまざまなレベルの数学的な洗練された書籍がかなりあります。あなたが推薦している本がどれほど技術的であるかについていくらかのアイデアを得ることは良いでしょう。

6
構造方程式モデリングの概要
同僚から、この主題についてのいくつかの助けを求められますが、私は本当に知りません。彼らは1つの研究でいくつかの潜在変数の役割について仮説を立て、審判は彼らにこれをSEMで形式化するように依頼した。彼らが必要とすることはそれほど難しくないように思えるので、私はそれを試してみると思う...今のところ、私はちょうど主題への良い紹介を探しています! これについては、Googleは本当に私の友人ではありませんでした。事前に感謝します... PS:John FoxによるRのsemパッケージによる構造方程式モデリングと、同じ著者によるこのテキストを読みました。私の目的にはこれで十分だと思いますが、とにかく他の参考文献は大歓迎です。

4
ニューラルネット/ MLアルゴリズムの*理論*の教科書?
これまでに見てきたすべての教科書は、MLアルゴリズムとその実装方法について説明しています。 これらのアルゴリズムの動作の定理と証明を構築する教科書もありますか?例えば条件場合、勾配降下は常につながると述べていますか?x 、y、zバツ、y、zx,y,zA 、B 、CA、B、CA,B,C

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.