タグ付けされた質問 「statistics」

統計は、データの確率モデルに基づく帰納的推論および予測への科学的アプローチです。さらに、この目的のためにデータを収集するための実験と調査の設計もカバーしています。

5
格付けシステムによる反対投票者の影響の軽減
ユーザーが1つ星から5つ星のシステムで評価するサイトを持っています。アイテムがチャートの一番上に達すると、それがどこにあるかを取得するために4〜5つ星の過半数を得たとしても、一部のユーザーは1つ星の評価を開始する傾向があります。それは蔓延しているわけではありません、私は新しい投票の10-20%が1です。明らかに彼らは評価システムを操作しようとしているので、私はそれを防ぎたいのです。 私が現在行っている方法は、正当な投票だと私が考えるものの「妥当なウィンドウ」を持つことです。 投票数が10未満のアイテムの場合。私は現在何もせず、評価なので平均値をとります。 アイテムの投票数が10を超えたら、平均値のウィンドウに結び付けます。このウィンドウは次のように定義されています Window = 4.5 - Log(TotalVotes, 10); したがって、妥当な投票範囲は (Mean - Window) thru (Mean + Window) 妥当な投票範囲が見つかると、「レーティング」はすべての妥当な投票(妥当な範囲に該当するもの)の平均にすぎません。 これは、100票で4.2の真の平均値を持つアイテムがのウィンドウを持つことを意味します4.5-Log(100,10) = 2.5。したがって、そのアイテムが1つ星の票を獲得した場合、評価では無視されます。ただし、1つ星は基になる平均に影響します。 これは一般的にはうまくMean - Windowいきましたが、問題は、アイテムが1.0の瀬戸際にあり、1つ星の投票ごとに1.0を下回るとすぐに評価に含まれ、前後の差でさえも大幅に低下することです。 1つ星の評価がもう1つあります。 私はこれらの1つ星の評価をフィルターで除外するためのより良いシステム/方法を必要としていますが、それだけでなく、誰かが友達にアイテムを10票と5つ星すべてに賛成させ、その真の評価がもっと高い状況に対処する必要があります3つ星。 ユーザー主導の評価システムを処理し、外れ値投票を正規化する方法の推奨事項を探します。

1
最適な解から遠く離れている勾配が非常に小さい場合、PythonでMLE推定量を数値的に推定する方法は?
私は、平均と分散の両方が独立変数の線形関数として定義されている正規分布を使用してデータセットをモデル化する方法を調査しています。 N〜(f(x)、g(x))のようなもの。 私はこのようなランダムなサンプルを生成します: def draw(x): return norm(5 * x + 2, 3 *x + 4).rvs(1)[0] だから、私の分布のパラメーターとして5、2、4を取得したいと思います。 私はサンプルを生成します: smp = np.zeros((100,2)) for i in range(0, len(smp)): smp[i][0] = i smp[i][1] = draw(i) 尤度関数は次のとおりです。 def lh(p): p_loc_b0 = p[0] p_loc_b1 = p[1] p_scl_b0 = p[2] p_scl_b1 = p[3] l = 1 for …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.