タグ付けされた質問 「probability」

確率は、特定のイベントの起こりそうな発生の定量的な説明を提供します。

1
フィッシャーカーネルを超えて
しばらくの間、確率モデルからカーネルを構築する方法のように思われたため、Fisher Kernelが人気になるように思われました。ただし、実際に使用されることはめったにありません。また、十分に機能しない傾向があるというのは、十分な権限があるためです。彼らはフィッシャー情報の計算に依存しています-ウィキペディアの引用: フィッシャー情報は、fの自然対数のθに関する2次導関数の期待値の否定です。情報は、θの最尤推定値(MLE)に近いサポート曲線の「曲率」の尺度であると見なすことができます。 私が知る限り、これは2点間のカーネル関数がこの曲面に沿った距離であることを意味します-私は正しいですか? ただし、これは、カーネルメソッドでの使用に問題がある可能性があります。 MLEは、特定のモデルの非常に悪い推定値である可能性があります MLEの周囲のサポートカーブの曲率は、インスタンスを区別するために使用できない可能性があります。 これはモデルに関する多くの情報を捨てるようです これが事実である場合、確率論的方法からカーネルを構築するより現代的な方法はありますか?たとえば、ホールドアウトセットを使用して、MAP推定値を同じ方法で使用できますか?(有効な)カーネル関数を構築するために、確率論的手法からの距離または類似性のその他の概念はどのように機能しますか?

3
Mの連続が与えられた場合、Nの連続が得られると予想されるコイントスの数
Interviewstreetには、1月に2番目のCodeSprintがあり、以下の質問が含まれていました。プログラムによる回答が投稿されていますが、統計的な説明は含まれていません。 (Googleの資格情報を使用してInterviewstreet Webサイトにサインインし、このページからコイントス問題に移動すると、元の問題と投稿された解決策を確認できます。) コイントス 公平なコインを持っているので、N枚の連続した表が出るまでトスを続けます。あなたはコインをM回投げましたが、驚くべきことに、すべての投げは表になりました。 N連続の頭を取得するまでに必要な追加のトスの予想数はいくつですか? 入力: 最初の行にはケースの数Tが含まれています。次のT行のそれぞれには、2つの数値NとMが含まれています。 出力: 対応するテストケースの回答を含むT行を出力します。正確に小数点以下2桁に丸めて回答を出力します。 入力例: 4 2 0 2 1 3 3 3 2 出力例: 6.00 4.00 0.00 8.00 サンプルの説明: N = 2かつM = 0の場合、2つの連続した表が出るまでコインを投げ続ける必要があります。平均して6回のコイントスが必要であることを示すことは難しくありません。 N = 2およびM = 1の場合、2つの連続したヘッドが必要で、すでに1を持っています。何があってももう一度トスする必要があります。その最初のトスでは、あなたが頭を得れば、あなたは終わりです。それ以外の場合は、連続カウンターがリセットされたときに最初からやり直す必要があり、N = 2の連続ヘッドが得られるまでコインを投げ続ける必要があります。したがって、コイントスの予想数は1 +(0.5 * 0 + 0.5 * 6)= 4.0です。N= 3かつM = 3の場合、すでに3つの頭があるので、これ以上トスは必要ありません。 私が思いついたすべての数式は、上記のサンプル入力データに対して正解でしたが、他のすべての入力セット(不明)に対しては間違っていました。彼らのプログラムによる解決策は、方程式を使って試してみる方法とはかなり異なる方法で問題を解決しているようです。誰かがこれを解決する方程式を考え出す方法を説明できますか?

1
関数の形状を維持しながら関数を確率密度に変換する方法は?
私には一連の関数があり、それぞれがエージェント全体の確率変数の密度を表していると考えられます。各関数には、確率変数のどの値が有効かを説明するドメインもあります。 ここで、統計クラスを正しく覚えている場合、関数のドメインによって記述された値全体の関数の1つの積分を取ると、1.0の値が得られます。ただし、これは発生しません。 関数を真の確率密度に変換しながら、関数の形状を維持できる正規化手法はありますか? すべての関数はaの形式です、Xは確率変数であり、そして、B、Cは定数で変化しています。abx+cabx+c\frac{a}{bx}+cxxxa,b,ca,b,ca,b,c

2
以前に与えられたデータの有効性をテストできますか?
問題 情報に基づいた事前データとデータを指定して事後密度を推定するベイズ分析を実行するR関数を書いています。ユーザーが前のものを再検討する必要がある場合、関数が警告を送信することを望みます。 この質問では、事前評価の評価方法に興味があります。以前の質問では、情報に基づいた事前情報を示すメカニズムを説明しました(こことここ。) 次の場合は、事前の再評価が必要になる場合があります。 データは、以前のことを述べたときに考慮されなかった極端なケースを表しています データのエラー(たとえば、前のデータがkgであるときにデータがgの単位である場合) コード内のバグのため、利用可能な事前設定のセットから間違った事前設定が選択されました 最初のケースでは、データ値がサポートされていない範囲(たとえば、logNまたはGammaの0未満)にない限り、通常、事前分布は依然として十分拡散しているため、データは一般的に圧倒します。その他のケースはバグまたはエラーです。 ご質問 データを使用して事前評価を行うことの妥当性について何か問題はありますか? この問題に最適な特定のテストはありますか? 例 これらは、(赤)または(青)のいずれかの母集団からのものであるため、以前のとの一致が不十分な2つのデータセットです。N (0 、5 )N (8 、0.5 )l o gN(0 、1 )logN(0,1)logN(0,1)N(0 、5 )N(0,5)N(0,5)N(8 、0.5 )N(8,0.5)N(8,0.5) 青色のデータは有効な事前+データの組み合わせである可能性がありますが、赤色のデータは負の値でサポートされる事前分布が必要です。 set.seed(1) x<- seq(0.01,15,by=0.1) plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='') points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), cex = 0.3, col = 'red') points(rnorm(50,8,0.5),jitter(rep(0,50),factor =0.4), cex …

4
Rでゼロに膨らんだパラメーターの密度をどのように推定できますか?
次のようなゼロの多いデータセットがあります。 set.seed(1) x <- c(rlnorm(100),rep(0,50)) hist(x,probability=TRUE,breaks = 25) 密度の線を描きたいのですが、density()関数はxの負の値を計算する移動ウィンドウを使用します。 lines(density(x), col = 'grey') density(... from, to)引数はありますが、次のプロットでわかるように、これらは計算を切り捨てるだけで、ウィンドウを変更せず、0での密度がデータと一致するように見えます。 lines(density(x, from = 0), col = 'black') (補間が変更された場合、黒い線は灰色の線よりも0の方が密度が高いと予想されます) ゼロでの密度のより良い計算を提供するこの関数の代替はありますか?
10 r  probability  kde 

2
同じ名前の同じクラスの5人の子供の確率
赤ちゃん命名フォーラムでは、将来の両親は常に自分のフィアオブジェニファーのバージョンを繰り返します。物事は、もはやそのような人気に近づく名前はなく、ジェニファーの大流行の高さでさえ、あなたはクラスでそれらのうちの5つを取得しませんでした。名前の繰り返しのこのような偶然がどれほどあり得ないかについて、これらの両親のためのある種の答えを望みます。 社会保障局の豊富な赤ちゃんの名前のデータ(https://www.ssa.gov/oact/babynames/limits.html)を使用して、米国の小学校のクラスが5つある可能性を理解する方法を誰かに教えてもらえますか同じ名前の子供?(簡単にするために、「同じ名前」とは、同じスペルを意味し、「学校のクラス」とは、すべての子供が同じ年に生まれたことを意味します。)私はクラスサイズを指定していませんが、4より大きくする必要があります。:-)

1
注文統計を介して推定値がパーセンタイルに収束することを示します
LET からサンプリングIIDランダム変数のシーケンスであるアルファ安定分布パラメータで、α = 1.5 、バツ1、X2、… 、X3 nX1,X2,…,X3nX_1, X_2, \ldots, X_{3n}。α = 1.5 、β= 0 、c = 1.0 、μ = 1.0α=1.5,β=0,c=1.0,μ=1.0\alpha = 1.5, \; \beta = 0, \; c = 1.0, \; \mu = 1.0 今配列検討、Y J + 1 = X 3 J + 1 X 3 J + 2 X …

3
CLTでは、なぜ
ましょ平均有する分布から独立して観察することがμ及び分散σ 2 &lt; ∞、場合N →を∞次いで、X1,...,XnX1,...,XnX_1,...,X_nμμ\muσ2&lt;∞σ2&lt;∞\sigma^2 < \inftyn→∞n→∞n \rightarrow \infty n−−√X¯n−μσ→N(0,1).nX¯n−μσ→N(0,1).\sqrt{n}\frac{\bar{X}_n-\mu}{\sigma} \rightarrow N(0,1). なぜこれがその意味するものではない X¯n∼N(μ,σ2n)?X¯n∼N(μ,σ2n)?\bar{X}_n \sim N\left(\mu, \frac{\sigma^2}{n}\right)?

1
平日の分布の均一性を測定する
私はここで尋ねられた質問と同様の問題を抱えています: 分布の不均一性をどのように測定しますか? 曜日全体にわたる一連の確率分布があります。各分布が(1 / 7,1 / 7、...、1/7)にどれだけ近いかを測定したいと思います。 現時点では、上記の質問の回答を使用しています。L2ノルムは、分布の1日の質量が1の場合に値1を持ち、(1 / 7,1 / 7、...、1/7)に対して最小化されます。私はこれを線形にスケーリングして、0と1の間にあるようにします。それを反転させると、0は完全に不均一になり、1は完全に均一になります。 これはかなりうまく機能しますが、私には1つの問題があります。平日は7次元空間の次元として等しく扱われるため、日数の近さは考慮されません。つまり、(1 / 2,1 / 2,0,0,0,0,0)と(1 / 2,0,0,1 / 2,0,0,0)にも同じスコアを与えますある意味では、後者はより「広がり」、均一であり、理想的にはより高いスコアを取得する必要があります。日付の順序が循環的であるという追加の複雑さが明らかにあります。 日の近さを説明するために、このヒューリスティックをどのように変更できますか?

4
仮定
タイトルのとおり。仮定のPDFに連続しiid確率変数であり、F。そのイベントを考えるX 1 ≤ X 2 ... ≤ X N - 1 &gt; X N、N ≥ 2従って、Nはシーケンスが最初に低下した場合です。次に、E [ N ]の値は何ですか?バツ1、X2、… 、XんX1,X2,…,XnX_1, X_2, \dotsc, X_nfffバツ1≤ X2... ≤ XN− 1&gt; XNX1≤X2…≤XN−1&gt;XNX_1 \leq X_2 \dotsc \leq X_{N-1} > X_NN≥ 2N≥2N \geq 2NNNE[ N]E[N]E[N] 最初にを評価しようとしました。私は P [ N = 2 ]P[ N= i ]P[N=i]P[N = …

1
クーポンコレクターの問題の一般的な形式の公式はありますか?
私はクーポンコレクターの問題に遭遇し、一般化の公式を考え出そうとしていました。 ある場合は個別のオブジェクトは、あなたが少なくとも収集するk個の任意の各コピーメートルそれらの(M ≤ N)、あなたが買うべきか、多くのランダムなオブジェクトの期待は何ですか?。通常のクーポンコレクターの問題には、m = Nおよびk = 1があります。NNNkkkmmmm≤Nm≤Nm \le Nm=Nm=Nm = Nk=1k=1k = 1 コレクションには12種類のレゴフィギュアがあります。10体(各10体)それぞれ3枚ずつ集めたい。ランダムに1つずつ購入できます。それらのそれぞれの3つのコピーを入手する前に、いくつ購入する予定ですか?

3
母集団のr二乗変化の信頼区間を取得する方法
簡単な例のために、2つの線形回帰モデルがあると仮定します モデル1は、3つの予測因子を持っているx1a、x2bと、x2c モデル2には、モデル1からの3つの予測子と2つの追加の予測子がx2aあり、x2b 母集団の分散が説明人口回帰式がある モデル1及びρ 2 (2 )増分分散がある集団におけるモデル2によって説明するモデル2についてΔは、ρ 2 = ρ 2 (2 ) - ρ 2 (1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 私は、の推定のための標準誤差と信頼区間を得ることに興味を持ってい。例にはそれぞれ3および2の予測子が含まれていますが、私の研究対象は、さまざまな数の予測子(たとえば、5および30)に関係しています。私が最初に考えたのは使用していた Δ R 2 、A D J = R 2 のD J (2 ) - R 2 次元J (1 )推定量として、それをブートストラップが、私は確かに、これは適切であるかどうかではなかったです。Δρ2Δρ2\Delta\rho^2Δr2adj=r2adj(2)−r2adj(1)Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)} ご質問 されたの合理的な推定量Δは、ρ …

1
Luce選択公理、条件付き確率についての質問[終了]
休業。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善してみませんか?詳細を追加し、この投稿を編集して問題を明確にしてください。 2年前休業。 私はルース(1959)を読んでいます。それから私はこの声明を見つけました: 人が選択肢の中から選択すると、非常に多くの場合、それらの応答は、選択セットで条件付けられた確率によって管理されているように見えます。しかし、条件付き確率の標準的な定義を伴う通常の確率理論は、必要なものとはかなり思えません。例は難しさを示しています。自宅から別の都市への移動方法を決定する場合、飛行機(a)、バス(b)、または車(c)のいずれかを選択できます。旅行の形態に関連する自然の不確実な状態をA、B、Cで表すことにします。cを選択した場合、AとBのすべての不確実性が残ることに注意してください。ただし、aまたはbのいずれかを選択した場合、車はガレージに残り、セットCは車の運転時から大幅に変更されます。 第1章の選択公理は、固定された普遍的なサンプル空間の仮定をバイパスした確率のような選択理論を構築する最初の試みとして導入されました。 ソース:http://www.scholarpedia.org/article/Luce's_choice_axiom ΩΩ\OmegaFF\mathcal{F}PPP 上記の例に関して、私が定義した場合に問題になると思われるもの: Ω = { バス、車、飛行機}Ω={bus,car,airplane}\Omega = \{ \text{bus}, \text{car}, \text{airplane} \} 一般的な統計における重要な仮定の1つは、子宮口筋の状態です。これは、cpの仮定に違反しているため、選択動作のコンテキストで基本的な確率理論を調整する必要がある理由ですか?

3
ウェブサイトを通る経路のパス確率ツリーを構築する
私は現在、Webサイトで分析を行っています。そのため、Webサイトにアクセスしたときに人々がたどる可能性のある経路を示すディシジョンツリー図を作成する必要があります。data.frameホームページから、すべてのお客様のサイトへの経路を表示するa を扱っています。たとえば、顧客は次の方法をとることができます。 Homepage - pg 1 Kitchen Items page - pg 2 Pots and Pans page - pg 3 したがって、この顧客は3ページの移動を行うことになります。私がRでやろうとしていることは、すべての顧客のパスを組み合わせて、サイトの特定のパスをたどる顧客に確率を割り当てることです。たとえば、すべてのパスを調べると、ホームページにアクセスした人の34%が「キッチンアイテムのページ」にアクセスすることがわかりました。Rにはこの機能がありますか? rpartとpartykitパッケージを使用してさまざまなメソッドを調べましたが、それらは役に立たないようです。 このための正しい方向への操縦は非常に高く評価されています!

3
2D正方形の点の分布の均一性を測定する
2Dの正方形があり、その中に一連のポイントがあります。たとえば、1000ポイントです。正方形内のポイントの分布が広がっているか(または多かれ少なかれ均一に分布しているか)、または正方形内のいくつかのスポットに集まる傾向があるかどうかを確認する方法が必要です。 これを決定するための数学的/統計的(プログラミングではない)方法が必要です。私はググって、適合度、コルモゴロフなどのようなものを見つけました、そしてこれを達成する他のアプローチがあるのか​​と思っています。クラスペーパーにはこれが必要です。 入力:2D正方形、および1000ポイント。出力:はい/いいえ(はい=均等に広がる、いいえ=一部のスポットに集まる)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.