待っているパラドックスを説明してください


75

数年前、私はイベントをカウントするのではなく、イベント間の間隔を測定することで機能する放射線検出器を設計しました。私の想定では、非連続のサンプルを測定する場合、平均して実際の間隔の半分を測定するというものでした。しかし、校正されたソースで回路をテストしたとき、読み取り値が2倍高すぎたため、全間隔を測定していました。

確率と統計に関する古い本の中で、「The Waiting Paradox」というセクションを見つけました。バスが15分ごとにバス停に到着し、乗客がランダムに到着する例を示しました。乗客は平均で15分間待ちます。私は例で示された数学を理解することができず、説明を探し続けています。乗客が完全な間隔を待つようになっている理由を誰かが説明できれば、私はよりよく眠ります。


1
本のタイトルと著者は誰ですか?ここで一語一語コピーできますか?
ジョエルレイエスノーチェ14年

これは私の専門ではありませんが、OPが言及するパラドックス検査パラドックスと同じですか?
ジョエルレイエスノーチェ14年


1
上記の私の推測はいくつかのサポートを持っているようです。この回答へのコメントは、検査のパラドックスに言及しています。
ジョエルレイエスノーチェ14年

2
バスはスケジュールに従う傾向があるため、アナロジーとしてバスを使用するのは混乱を招くと思います。代わりに、平均15分ごとに空のタクシーが来るまでにどれくらい時間がかかるかを考えてください。
ハーベイモトゥルスキー14

回答:


48

Glen_bが指摘したように、バスが分ごとに不確実性なしに到着した場合最大待機時間は分であることがわかります。私たちの側から「ランダムに」到着した場合、「平均して」可能な最大待機時間の半分を待つことになります。そして、ここでの最大待機時間は、2つの連続した到着間の最大可能時間に等しくなります。待機時間と2つの連続したバスの到着間の最大長、1515WR

(1)E(W)=12R=152=7.5

そして我々は正しい。

しかし、突然、確実性が失われ、2つのバスの到着間の平均時間が分になったと言われています。そして、「直感的な思考のtrap」に陥り、「を期待値に置き換えるだけでよい」と考え、15R

(2)E(W)=12E(R)=152=7.5WRONG

我々は間違っている最初の兆候は、ということであるあるていないこと「は、「任意の2つの連続バス到着との間の長さ」の最大長など」。したがって、いずれの場合でも、そのます。RE(R)15

どのようにして方程式到達しましたか?「待機時間は最大からまでです。どのような場合でも同じ確率で到着するので、すべての可能な待機時間をランダムかつ同じ確率で「選択」します。したがって、2つの連続するバス到着間の最大長の半分が平均待ち時間」。そして我々は正しい。(1)015

しかし、誤って式に値を挿入することにより、動作を反映しなくなります。の代わりに、、式「私はランダムと同じ確率ですべての可能な待ち時間を選択語る小さいか、二つの連続バス到着の間の平均の長さに等しい」 -そしてここにいる私たちの直感的です私たちの行動が変化していない、ので間違いは、ある-そう、ランダムに一様に到着によって、我々は現実にはまだすべての可能な待ち時間「をランダムと同じ確率で選ぶ」 -しかし、「すべての可能な待ち時間が」さないで撮影し15(2)15E(R)(2)15 -2つの連続したバス到着間の長さの分布の右尾を忘れてしまいました。

おそらく、連続する2つのバスの到着間の最大長の期待値を計算する必要がありますが、これは正しい解決策ですか?

はい、可能性があります、特定の「パラドックス」は特定の確率的仮定と密接に関連しています。バス到着はベンチマークポアソンプロセスによってモデル化されるため、結果として、 2つの連続したバス到着は、指数分布に従います。意味その長さを、私たちはそれを持っています

f()=λeλ,λ=1/15,E()=15

指数分布は右から無制限にサポートされているため、これは当然のことです。つまり、厳密に言えば「すべての待機時間」には、このモデリング仮定では、無限大までの「大きく」大きいマグニチュードが含まれますが、確率はゼロになります。

しかし、指数は、待ってメモリレス:時間のどの時点でどんなに私たちが到着します、我々は同じ確率変数に直面かかわらず、前に行っているものの、。

この確率的/分布的な仮定を考えると任意の時点は「2つの連続したバス到着間の間隔」の一部であり、その長さは期待値(最大値ではない)と同じ確率分布によって記述されます:「私はここにいます、私は2つのバス到着間の間隔に囲まれています。その長さの一部は過去にあり、一部は未来にありますが、どれだけ、どれだけかを知る方法がありません。私の平均待ち時間はどれですか?」-そして、答えは常に「」です。 151515


+1とてもいい。は読み取る必要がありますか?のF λf()fλ()
アメーバは2014

ありがとう。表記に関しては、両方とも異なることを示すために使用されます。私が書いたのは、さまざまな変換でようなものになる可能性があるため、ランダム変数密度がストレスであるという線に沿っています。あなたが提案するのは、密度のパラメータ化された側面を強調することです。fX(y)
アレコスパパドプロ14

80

バスが「15分ごと」に(つまり、スケジュールに従って)到着する場合、(ランダムに到着する)乗客の平均待機時間は、実際にはその15分間隔で均等に分散されるため、わずか7.5分です。

-

一方、バスが1時間あたり4の平均速度でランダムに到着する場合(つまり、ポアソンプロセスによる)、平均待機時間ははるかに長くなります。確かに、メモリプロパティの不足を介してそれを解決することができます。乗客の到着を出発点として、次のイベントまでの時間は平均15分で指数関数的です。

離散時間のアナロジーを見てみましょう。15 面のダイスを振って、そのうちの1つが「B」(バス用)、14が「X」とラベル付けされ、その分バスがまったく存在しないことを想像してください(30面のダイスが存在するため、2つのラベルを付けることができます) 30面のダイ「B」の面)。それで、1分に1回、転がってバスが来るかどうかを確認します。ダイにはメモリがありません。最後の「B」以降のロール数はわかりません。犬の鳴き声、乗客が到着し、雷鳴が聞こえるという、つながりのない出来事が起こると想像してください。今から、次の「B」までどれくらいの時間(ロール数)待つのですか?

メモリ不足のため、平均して、次の「B」が2つの連続した「B」の間の時間と同じ時間待機します。

[次に、15秒ごとにロールする60面のダイスがあることを想像してください(これも1つの「B」面で)。今、私は0.9秒ごとに転がした1000面のダイスを持っていたと想像してください(1つの「B」面、またはより現実的には、3つの10面のサイコロをそれぞれ、3つすべてが「10」になった場合、結果を「B」と呼びます同時に)...など。限界では、連続時間ポアソンプロセスを取得します。]

別の見方はこれです:短いものよりも長いギャップの間に、ちょうどいい方法で「ロールを数え始める」(「乗客がバス停に到着する」)イベントを観察する可能性が高い平均待ち時間はバス間の平均時間と同じです(ほとんどの場合、長いギャップで待機し、ほとんどの場合は短いものを逃します。均一に分散した時間に到着するため、長さギャップに到着する可能性は、)ttt

バスのベテランキャッチャーとして、実際には、「バスは予定どおりに到着する」と「バスはランダムに到着する」の間にあるように見えます。また、時々(交通量が少ない場合)、1時間待ってから3を一度に到着します(その理由は下記のコメントで確認できます)。


6
バスについては、特に乗客が混雑するにつれて遅れるバスが遅くなり、その後ろの空のバスが最終的に追いつく(しかし空のまま)追加のプロセスがあると思います。= D
ザック

4
実際、@ Zachは、特に大量のトラフィックの場合、長期にわたって集中する傾向があります。私が住んでいる場所でバスが非常に遅く、次のバスに間に合うように、彼らは時々、ルートに沿ってほぼ時間通りに追加のバスを挿入することがあります(つまり、バスがあまり遠くない場所に乗客なしで運転します)スケジュール、多くの場合、より高速なルートを介してそこに着く)と、今ではバスが少し遅れている乗客をピックアップし始めます。一方、非常に遅れてバスは現在、効果的になり、次のことが、他のバスが入って来たところに到達したら、スケジュールにバス。
Glen_b

@Glen_bそれは本当に良いアイデアです、ハァッ!
ザック14年

これは有用なアンチクランピング戦略です(少なくとも、最悪の場合は軽減します)。バス待機時間のより正確なモデルで対処する必要がある依存関係の問題に関連する場合を除き、私はそれを取り上げませんでした。
グレン_b 14年

10

バスの詳細...議論の後半で会話に突入して申し訳ありませんが、私は最近ポアソンのプロセスを見てきました...それが私の心から抜け出す前に、検査のパラドックスの図解表現があります

誤りは、バスは特定の到着間平均時間(ポアソンレートパラメーターの逆数)で特定の到着パターンに従うため、 min と呼びます。 )、バスステーションにランダムに現れることにより、実際にバスを拾います。したがって、バス停にランダムに現れる場合、たとえば1か月以上の待機時間のログブックを維持すると、実際にバス間の平均到着間隔がわかります。しかし、これはあなたがやろうとしていることではありません。θ = 1 / λ = 15λθ=1/λ=15

ディスパッチセンターにいて、すべてのバスを画面で見ることができた場合、複数のバスをランダムにピックアップし、後続のバスまでの距離を平均すると、平均到着時間になります。

ここに画像の説明を入力してください

しかし、代わりに私たちが行うことは、(バスを選択するのではなく)バス停に現れる場合、通常の朝のバスのスケジュールのタイムラインに沿って、ランダムな時間の断面を行っています。私たちがバス停に現れることにした時間は、時間の「矢印」に沿って非常に均一に分布しているかもしれません。ただし、バス間の間隔が長くなるため、これらの「ストラグラー」をオーバーサンプリングする可能性が高くなります。

ここに画像の説明を入力してください

...したがって、待機時間のログブックには到着時間は反映されません。これは検査の逆説です。

予想待機時間に関するOPの実際の質問については、気が遠くなるほどの説明は、最後に逃したバスが離れた時点からタイムギャップを経過させるポアソンプロセスの無記憶状態にあります駅までの時間は無関係で、次のバスの到着までの予想時間は頑固に分です。これは、Glen_bの回答のサイコロの例で、離散時間(幾何分布)で最もよく見られます。 θ = 1515θ=15

実際、前のバスがどれくらい前に出発したかを知ることができれば、分です!John TsitsiklisによるこのMITビデオで説明されているように、ポアソンプロセスが時間的に後方に移動するとき、到着点に先行するものを表示する必要があります。E[time waiting (future) + time to last bus departure (past)]=30


ここに画像の説明を入力してください


まだ不明ですか?- レゴで試してみてください。


優れた図。
Glen_b

2

与えられた平均到着時間(この場合は15分)でポアソンプロセスごとに到着するバスの予想待ち時間を計算することで得られるさまざまな答えを解決する簡単な説明があります。 。

方法1)ポアソンプロセス(指数)にはメモリがないため、予想待ち時間は15分です。

方法2)到着する到着間隔の間にいつでも到着する可能性があります。したがって、予想される待機時間は、この到着間隔の予想される長さの1/2です。これは正しいものであり、方法(1)と競合しません。

(1)と(2)の両方を正しくする方法は?答えは、到着時間の到着間期間の予想される長さが15分ではないということです。実際には30分です。30分の1/2は15分なので、(1)と(2)は一致します。

到着時刻の到着間隔が15分に等しくないのはなぜですか?それは、最初に到着時間を「固定」することにより、それが入っている到着間隔が平均より長い到着間隔になる可能性が高いためです。指数関数的な到着間隔の場合、数学はうまく機能するため、到着時刻を含む到着間隔は、ポアソンプロセスの平均到着間隔の2倍の指数関数になります。

到着時間を含む到着時間の正確な分布が平均値が2倍の指数関数になることは明らかではありませんが、説明後に、なぜ増加するかは明らかです。わかりやすい例として、到着時間は確率1/2の10分または確率1/2の20分であるとしましょう。この場合、20分間の到着間隔は、10分間の到着間隔と同じように発生する可能性がありますが、実際に発生すると、2倍の長さになります。したがって、日中の2/3の時点は、到着間隔が20分の時間になります。別の言い方をすれば、最初に時間を選択し、その時間を含む到着間時間を知りたい場合は、(「日の」開始時の一時的な影響を無視して )その到着時間の予想される長さは16 1/3です。しかし、最初に到着時間を選択し、予想される長さを知りたい場合、15分です。

更新パラドックス、長さバイアスサンプリングなどの他のバリエーションがあり、ほぼ同じことです。

例1)寿命はランダムですが、平均1000時間の電球がたくさんあります。電球が故障すると、すぐに別の電球に交換されます。電球のある部屋に行く時間を選ぶと、動作中の電球の平均寿命は1000時間より長くなります。

例2)ある時間に建設現場に行くと、その時間にそこで働いている建設労働者が建物から落ちるまでの平均時間(最初に働き始めたときから)は、労働者までの平均時間よりも長い働き始めるすべての労働者の中から(彼らが​​最初に働き始めたときから)落ちる。なぜなら、脱落するまでの平均時間が短い労働者は平均よりもすでに脱落している可能性が高く(そして継続して作業していない)、そのために働いている労働者は脱落するまでの平均時間が長くなるからです。

例3)都市で適度な数の人々を無作為に選び、都市のメジャーリーグの野球チームのホームゲーム(すべての売り切れではない)に参加した場合、参加したゲームの人数を調べます。その後(若干理想化されているが、あまり合理的でない仮定ではない)、これらのゲームの平均参加者は、チームのすべてのホームゲームの平均参加者よりも高くなります。どうして?出席率の低いゲームよりも出席率の高いゲームに参加した人の方が多いため、出席率の低いゲームよりも出席率の高いゲームに参加した人を選ぶ可能性が高くなります。


0

提起された質問は、「バスが15分ごとにバス停に到着し、乗客がランダムに到着する」というものでした。バスが15分ごとに到着する場合、ランダムではありません。15分ごとに届くので、正しい答えは7.5分です。ソースが誤って引用されたか、ソースの作者がずさんでした。

一方、放射線検出器は別の問題のように聞こえます。これは、放射線イベントが何らかの分布に従ってランダムに到着するためです。おそらくポアソンのようなもので、平均待ち時間があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.