関連する合計のみからバッグ内の果物の量を推定しますか?


9

私の大学のインストラクターがこのような質問をしました(クラスが終わって私がそこにいなかったので宿題ではありません)。どうすればいいのかわからない。

問題は、それぞれがさまざまな種類の果物を含む2つのバッグに関するものです。

最初の袋には、次のランダムに選択された果物が含まれています。

+ ------------- + -------- + --------- +
| 直径cm | 質量g | 腐った?|
+ ------------- + -------- + --------- +
| 17.28 | 139.08 | 0 |
| 6.57 | 91.48 | 1 |
| 7.12 | 74.23 | 1 |
| 16.52 | 129.8 | 0 |
| 14.58 | 169.22 | 0 |
| 6.99 | 123.43 | 0 |
| 6.63 | 104.93 | 1 |
| 6.75 | 103.27 | 1 |
| 15.38 | 169.01 | 1 |
| 7.45 | 83.29 | 1 |
| 13.06 | 157.57 | 0 |
| 6.61 | 117.72 | 0 |
| 7.19 | 128.63 | 0 |
+ ------------- + -------- + --------- +

2番目のバッグには、最初のバッグと同じストアからランダムに選択された6つの果物が含まれています。それらの直径の合計は64.2 cmで、4つは腐っています。

2番目のバッグの質量を見積もります。

直径と質量が正規分布している2種類の果物があるように見えますが、どうすればよいか迷っています。


6
興味深い質問-しかし奇妙なデータ:比重は0.78から0.05の範囲です。発泡スチロールの装飾を本物の果物と間違えた人がいるかもしれません。:-)
whuber

質問は、果物が何でできていたかは言いません。実際のバッグ自体も無重量であると推測できると思います。どうすれば問題を解決できますか?
rutilusk 2015年

3
私のコメントの要点は、そのような少量の乱雑なデータを分析するとき、データが何を意味するかについての知識に依存しているということでした。これらの数字は明らかに既知の種類の「果物」を説明していないため、そのようなドメインの知識に訴えることはできません。(たとえば、これらのデータのどの部分も「正規分布」であると想定する根拠はまったくありません。)これにより、合理的な回答を作成することが困難または不可能になり、論争につながる可能性があります。あらゆるアプローチのパフォーマンスを評価できます。
whuber

しかし、発泡スチロールの果実は腐ることはありません。おそらく果物は長軸に沿って測定された「直径」を持つ長楕円体です。少なくとも2種類の果物があるようです。つまり、比重が1に近いとすると、レモンのサイズと形は小さい方になります。約半分の足の長さと2インチ未満の大きい方。このアイデアの難しさは、より短い軸を「直径」として説明する方が自然に思われることです。
Scortchi-モニカの回復

回答:


1

まずデータをプロットして、それを見てみましょう。これは非常に限られた量のデータであるため、これは多くの前提条件を備えたややアドホックです。

rotten <- c(0,1,1,0,0,0,1,1,1,1,0,0,0)
rotten <- as.factor(rotten)
mass <- c(139.08, 
        91.48,
        74.23,
        129.8,
        169.22,
        123.43,
        104.93,
        103.27,
        169.01,
        83.29,
        157.57,
        117.72,
        128.63)
diam <- c(17.28,
        6.57,
        7.12,
        16.52,
        14.58,
        6.99,
        6.63,
        6.75,
        15.38,
        7.45,
        13.06,
        6.61,
        7.19)

plot(mass,diam,col=rotten,lwd=2)
title("Fruits")

これがデータです。赤い点は腐った果物を表しています。

プロットされた果物

実は2種類あるそうです。私の仮定は次のとおりです。

  • 直径は果物を2つのグループに分けます
  • 直径が10を超える果実は1つのグループに属し、他のグループは小さいグループに属します。
  • 大きな果物グループには腐った果物が1つしかありません。果物が大きなグループにある場合、腐敗しても体重に影響がないと仮定しましょう。そのグループにはデータポイントが1つしかないため、これは不可欠です。
  • 果物が小さな果物である場合、腐っていることが塊に影響します。
  • 変数diamとmassが正規分布していると仮定しましょう。

直径の合計が64.2 cmであることが示されているため、2つの果物が大きく、4つの果物が小さい可能性が最も高いです。これで、重量の3つのケースがあります。腐った小さな果実が2、3、または4つあります(腐った大きな果実は、仮定によって質量に影響しません)。したがって、これらの値を計算することにより、質量の境界を取得できます。

腐った小さな果物の数の確率を経験的に推定できます。腐った果物の数に応じて、質量の推定値に重みを付けるために確率を使用します。

samps <- 100000
stored_vals <- matrix(0,samps,2)
for(i in 1:samps){
  numF <- 0 # Number of small rotten
  numR <- 0 # Total number of rotten
  # Pick 4 small fruits
  for(j in 1:4){
    if(runif(1) < (5/8)){ # Empirical proportion of small rotten
      numF <- numF + 1
      numR <- numR + 1
    } 
  }
  # Pick 2 large fruits
  for(j in 1:2){
    if(runif(1) < 1/5){# Empirical proportion of large rotten
      numR <- numR + 1
    }
  }
  stored_vals[i,] <- c(numF,numR)
}

# Pick out samples that had 4 rotten
fourRotten <- stored_vals[stored_vals[,2] == 4,1]
hist(fourRotten)

table(fourRotten)

# Proportions 
props <- table(fourRotten)/length(fourRotten)

massBig <- mean(mass[diam>10])
massSmRot <- mean(mass[diam<10 & rotten == 1])
massSmOk <- mean(mass[diam<10 & rotten == 0])

weights <- 2*massBig + c(2*massSmOk+2*massSmRot,1*massSmOk+3*massSmRot,4*massSmRot)

Est_Mass <- sum(props*weights) 

691.5183gの最終見積もりをください。私が結論を出すには、ほとんどの仮定を行う必要があると思いますが、もっと賢い方法でこれを行うことが可能かもしれないと思います。また、腐った小さな果物の数の確率を取得するために、経験的にサンプリングします。


ご協力いただき、ありがとうございます。あなたが「仮定」と呼ぶ主張のほとんどは、実際の探索的分析に基づく結論であるように私には思えます。結果がそれらの結論の正確さにどのように依存するかを分析することは価値があります。とにかく、そのような小さなデータセットは7つの有意な数値の結果をサポートできない可能性があることは明らかです。その可能性のあるエラーの評価を提供することは特に有用でしょう。これは比較的大きくなるため、知っておく必要があります。
whuber

@whuberのコメントに感謝します。夕方の後で、変動を推定するためにさらに何かを追加するかもしれません。最も簡単なことは、最終計算に使用する3つのグループの質量の誤差推定値を取得し、それに基づいて予測区間を計算することです。しかし、OPが1年間非アクティブであることがわかります。そのため、この回答が受け入れられるとは思いません。この例は、非常に少ないデータでどのように取得できるかを確認するための「おもちゃ」の問題だと私はまだ思います。
Gumeo 2016

回答自体が非常に不確かである多くのデータから得られた結論に依存しているため、私はあなたが実際にあなたの回答で示唆されたよりもはるかに少ない情報を取得することを提案しようとしています。
whuber

@whuberはい、それは完全に正しいです。しかし、私が行うすべての仮定/結論によって伝播されるエラーを推定しようとすることは、非常に単純ではありません。また、2つ目の袋の果物の直径の合計が64.2cmであり、OPが果物のグループが2つある可能性があると述べていることにも大きな影響を受けました。
Gumeo 2016

1
@whuber私はこれについて考え、これを挑戦とみなします。後でこの質問に戻ります。
Gumeo 2016

0

私は次のアプローチを提案します:

  1. 4つの腐敗の条件を満たすすべての6タプルを生成します。それらはです。(64)(72)
  2. 生成されたタプルから、直径の条件を満たすもののみを選択します。
  3. 選択したタプルの平均重みを計算します(通常は算術平均)。

これらはすべて、単純なスクリプトで管理できます。


5
なぜこのアプローチがうまくいくのでしょうか?それはどんな仮定をしますか?答えを出すことができるかどうか試してみましたか?
whuber

0

複数のアプローチには、最も単純なものから複雑なものまで、

  1. 6(平均質量)
  2. 6(平均体積)(平均密度)
  3. 4(平均腐った質量)+ 2(平均腐っていない質量)
  4. 4((平均腐った体積)+ 2(平均非腐敗した体積))(平均密度)
  5. 4(平均腐った体積)(平均腐った密度)+ 2(平均非腐敗した体積)(平均非腐敗した密度)

。。。

組み合わせメソッド

アプローチは、計算が単純になる順に並べられており、どのアプローチが優れている、または少しも良い順ではありません。使用するアプローチの選択は、母集団のどの特性が既知または想定されているかによって異なります。たとえば、店の人口の果物の質量が通常分布していて、直径や腐敗状態に依存しない場合、より複雑なアプローチを使用することの利点(または複数の変数のサンプリングエラーの欠点)のない最初の最も単純なアプローチを使用できます。 。独立して同一に分布した確率変数でない場合は、母集団に関する既知の情報または想定される情報に応じて、より複雑な選択を行うことをお勧めします。


3
なぜこれらのどれが良いのですか?彼らはどんな仮定をしていますか?どのようにして一方を他方から選択しますか?(また、ある意味で良い順になっていますか?)
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.