統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
データがRのポアソン分布に従うかどうかを知る方法は?
私は学部生で、確率クラスのプロジェクトを持っています。基本的に、私は一連の年の間私の国に影響を与えたハリケーンに関するデータセットを持っています。 私の確率ブック(Rの確率と統計)には、データがポアソン分布に従うかどうかを確認する方法の(完全ではない)例があり、これらの3つの基準が守られていることを証明しようとします:(私の本120(基準)122-123例) 1-重複しない間隔での結果の数は独立しています。つまり、時間間隔(0、t]の結果の数は、時間間隔(t、t + h]、h> 0の結果の数とは無関係です。 2-十分に短い間隔での2つ以上の結果の確率は実質的にゼロです。つまり、hが十分に小さい場合、間隔(t、t + h)で2つ以上の結果を得る確率は、同じ時間間隔で1つまたはゼロの結果を得る確率と比較して無視できます。 3-十分に短い間隔または小さな領域での正確に1つの結果の確率は、間隔または領域の長さに比例します。言い換えると、長さhの区間における1つの結果の確率はlambda * hです。 ただし、基準3は「演習」として残されています。 A-誰かが私のデータセットがポアソン分布に従うかどうかを確認するためのより「簡単な」方法があるかどうか教えてもらえますか? B-誰かが私に基準1と3をある種の例で説明してもらえますか(Rの場合は素晴らしい)。 ありがとう! 注:長い投稿で申し訳ありません。また、データを変換して、次のようなテーブルを作成する必要があります。 number of hurricanes | 0 | 1 | 2 etc. ----------------------------------------- total years that have | | | that number of hurricanes | | |

2
一般的な適合度テストに相当するベイジアンとは何ですか?
2つのデータセットがあります。1つは物理的観測(温度)のセットからのもので、もう1つは数値モデルのアンサンブルからのものです。モデルのアンサンブルが真の独立したサンプルを表すと仮定し、観測がその分布から引き出されているかどうかを確認するために、完全なモデル分析を行っています。計算した統計は正規化されており、理論的には標準正規分布でなければなりません。もちろん完璧ではないので、適合度をテストしたいと思います。 頻度論的推論を使用して、Cramér-vonMises統計(またはKolmogorov-Smirnovなど)、または同様のものを計算し、テーブルで値を検索してp値を取得し、値がどの程度低いかを判断するのに役立ちます観測値がモデルと同じである場合、参照してください。 このプロセスのベイジアン等価物は何でしょうか?つまり、これら2つの分布(計算された統計値と標準正規分布)が異なるという確信の強さを定量化するにはどうすればよいですか?

6
統計グラフィックスの「こんにちは、世界」はありますか?
コンピュータプログラミングでは、「hello、world」と呼ばれる新しい言語またはシステムを学習/指導するための古典的な最初のプログラムがあります。 http://en.wikipedia.org/wiki/Hello_world_program グラフパッケージを使用するための古典的な最初のデータ視覚化はありますか?もしそうなら、それは何ですか?そうでない場合、良い候補者は何でしょうか?

3
Rは実動(デプロイ済み)コードに対して実行可能か
GoogleやFacebookなど、Rを研究に使用している他の多くの企業に関する記事を多数読んでいます。私が読んだもう1つのシナリオは、Rを使用して分析ソリューションのプロトタイプを作成し、別の言語で再実装する企業です。 実際の生産分析コードにRを使用している企業に関する文献を探しています。ユースケースは、リモートサーバーで実行されたRスクリプトから応答を取得するWebページを介してユーザーが対話する推奨システムです。そのようなレポートを見つけるのに苦労しているという事実は、それが望ましくないのではないかと思うようになります。もしそうなら、なぜですか?
25 r  references 

2
ベットハウスはスポーツのベットオッズをどのように決定しますか?
たとえば、サッカー(サッカー)を見てみましょう。ホームウィン、ドロー、アウェイウィンの3つの結果があります。私はbet365からランダムなゲームを取りました Turkey vs Ukraine hwin, draw, awin 2.20 3.40 3.20 だから、100の投資のための$指定された結果に、あなたのいずれか緩んで100 $または勝つ:220 $、340 $または320 $。彼らの確率評価は100%にならないで、5%-12%余分にかかりますが、どうしてこれらの数字(2.20、3.40、3.20)に達しましたか?例えば、人々の90%がトルコにお金を置いた場合、hwin係数は低くなるでしょうか、それとも何らかの計算ですか? 計算の問題は、サンプルが非常に貧弱であり、各国のチームが長期間にわたって非常に少ないゲームをプレイしていること、さまざまな強さのチームの全範囲の間で、負傷、個々の選手の現在の形態や動機などの多くの外部パラメーターが貢献していることです。 ナショナルチャンピオンシップの戦略は異なりますが、ゲームがより頻繁にプレイされるにつれて、より規則性を見つけることができますが、月に4回のナショナルリーグゲームはそれほど多くはありません(また、ホーム/アウェイでプレイされる2つの非常に異なるものです) 。 それで基本的に、質問は彼らが何に最も依存しているのか、どのようにこれらの数字に到達するのか、それは計算、他のプレーヤーのベットパターン、組み合わせなどですか? 副次的な疑問として、他のギャンブラーが係数の設定方法に強い影響を与える場合、そのような評価には大きな誤差があると思われます。特定の結果に対して65%と70%の違いを伝えることができるかどうかはわかりませんが、その違いは区別できません。明確にするために、私は主に彼らが自宅でプレーするため、与えられた例のトルコがお気に入りであると信じていますが、モナコ代表と対戦した場合、45%または55%の勝利のチャンスは抽象的すぎます自信を持って勝利する確率を与えてください。

5
コピュラの入門書
しばらくの間、私はセミナーのためにコピュラに関する良い入門書を探していました。私は理論的な側面について話す多くの資料を見つけていますが、それは良いことですが、それらに移る前に、このトピックに関する優れた直観的な理解を構築したいと考えています。 誰もが初心者に良い基盤を提供する良い論文を提案できますか(私は統計の1-2コースを持ち、周辺、多変量分布、逆変換などを合理的な範囲で理解しました)?

6
ニューラルネットワークはどのように画像を認識しますか?
この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 7年前に移行され ました。 Neural Networkが画像認識でどのように機能するかを学習しようとしています。私はいくつかの例を見て、さらに混乱しました。20x20画像の文字認識の例では、各ピクセルの値が入力レイヤーになります。だから400ニューロン。次に、ニューロンの隠れ層と26個の出力ニューロン。その後、ネットワークをトレーニングすると、完全ではなく機能します。 ニューラルネットワークについて私を混乱させたのは、画像の中にあるものについて学習する方法です。何らかの方法でネットワークが画像の比較と認識を学習するために、しきい値処理、セグメンテーション、または測定を行う必要はありません。今では魔法のようです。ニューラルネットワークの学習を開始する場所

3
この奇妙な形の分布をモデル化する方法(ほぼ逆J)
以下に示す私の従属変数は、私が知っている在庫分布に適合しません。線形回帰は、奇妙な方法で予測Yに関連するやや非正規の右スキューの残差を生成します(2番目のプロット)。最も有効な結果と最高の予測精度を得るための変換またはその他の方法に関する提案はありますか?可能であれば、たとえば5つの値(たとえば、0、lo%、med%、hi%、1)に分類することを避けたいと思います。

2
Joel Spolskyの「Hunting of the Snark」は、有効な統計コンテンツ分析を投稿していますか?
最近コミュニティ速報を読んでいるなら、StackExchangeネットワークのCEOである Joel SpolskyによるStackExchange公式ブログへの投稿であるThe Hunting of the Snarkを見たことがあるでしょう。彼は、外部ユーザーの観点から「友好性」を評価するために、SEのコメントのサンプルで実施された統計分析について議論しています。コメントはStackOverflowからランダムにサンプリングされ、コンテンツアナリストはAmazonのMechanical Turkコミュニティのメンバーでした。これは、手頃な料金で小規模で短いタスクを行う労働者に企業をつなぐ仕事の市場です。 少し前まで、私は政治学の大学院生であり、私が受講したクラスの1つは統計コンテンツ分析でした。クラスの最終プロジェクトは、実際その全体的な目的は、ニューヨークタイムズの戦争報告の詳細な分析を行い、アメリカ人が戦争中のニュース報道について行った多くの仮定が正確であったかどうかをテストすることでした(ネタバレ:彼らがない)。このプロジェクトは巨大でとても楽しいものでしたが、最も苦痛だったのは「トレーニングと信頼性のテストフェーズ」で、これは完全な分析を行う前に発生しました。これには2つの目的がありました(詳細な説明、およびコンテンツ分析統計文献のインターコーダー信頼性基準への参照については、リンクされたペーパーの9ページを参照)。 すべてのコーダー、つまりコンテンツの読者が、同じ定性的な定義でトレーニングされたことを確認します。ジョエルの分析では、これは誰もがプロジェクトが「友好的」と「非友好的」をどのように定義したかを正確に知っていることを意味しました。 すべてのコーダーがこれらのルールを確実に解釈したことを確認します。つまり、サンプルをサンプリングし、サブセットを分析し、定性的評価のペアワイズ相関が非常に類似していることを統計的に示しました。 信頼性テストは、3〜4回やらなければならなかったので痛いです。-1-がロックダウンされ、-2-が十分なペアワイズ相関を示すまで、完全な分析の結果は疑わしいものでした。有効または無効であることを証明できませんでした。最も重要なことは、最終的なサンプルセットの前に信頼性のパイロットテストを行う必要があったことです。 私の質問はこれです:ジョエルの統計分析にはパイロットの信頼性テストがなく、「友好性」の運用上の定義を確立しませんでした。最終データは、彼の結果の統計的妥当性について何か言うほど信頼できるものでしたか? 1つの観点から、インターコーダーの信頼性と一貫した運用定義の価値に関するこの入門書を検討してください。同じソースの詳細から、パイロットの信頼性テストについて読むことができます(リストの項目5)。 Andy W.の彼の答えの提案に従って、Rのこのコマンドシリーズを使用して、ここで入手可能なデータセットのさまざまな信頼性統計を計算しようとしています(新しい統計を計算すると更新されます)。 記述統計はこちら パーセント契約 (許容差= 0):0.0143 パーセント契約(許容差= 1):11.8 クリッペンドルフのアルファ: 0.1529467 また、別の質問でこのデータのアイテム応答モデルを試しました。

3
Rで時系列の滑らかさを測定する方法は?
Rの時系列の滑らかさを測定する良い方法はありますか?例えば、 -1, -0.8, -0.6, -0.4, -0.2, 0, 0.2, 0.4, 0.6, 0.8, 1.0 よりもはるかに滑らかです -1, 0.8, -0.6, 0.4, -0.2, 0, 0.2, -0.4, 0.6, -0.8, 1.0 それらは同じ平均と標準偏差を持ちますが。時系列にわたってスムーズなスコアを提供する機能があれば、それはクールです。
25 r  time-series 


2
平滑化スプラインと平滑化のレスを比較しますか?
曲線を平滑化するために黄土または平滑化スプラインを使用することの長所/短所をよりよく理解したいと思います。 私の質問の別のバリエーションは、黄土を使用するのと同じ結果をもたらす方法で平滑化スプラインを構築する方法があるかどうかです。 参照または洞察を歓迎します。

3
ポアソン回帰からの残差対適合値のプロットの解釈
RのGLM(ポアソン回帰)でデータを近似しようとしています。残差対近似値をプロットすると、プロットは複数の(わずかに凹状の曲線でほぼ線形の) "線"を作成しました。これは何を意味するのでしょうか? library(faraway) modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + freerepa + illness + actdays + hscore + chcond1 + chcond2, family=poisson, data=dvisits) plot(modl)

1
分位回帰にはどのような診断プロットが存在しますか?
OLSに関する私の質問に続いて、私は疑問に思う:分位回帰にはどのような診断プロットが存在するのか?(そしてそれらのR実装はありますか?) 簡単なグーグル検索で、すでにワームのプロット(これまで聞いたことがない)を思い付きました。(それらのうちのどれかが、分位点回帰のために移植されたOLSからのものですか?)


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.