統計とビッグデータ rating

3

私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

4

ペアごとの競争データに基づいて評価とランキングを開始する方法は？

ペアワイズ方式でのみ相互作用/競合するグループ（チェスのELO評価システムなどのシステム）の個人を評価およびランク付けする方法について学ぶのは興味深いです。適切な方法や、より正確で高度な方法はありますか？実装を容易にするRパッケージはありますか？補助情報と試合/ゲームの結果を使用できる方法はありますか？二分した勝ち/負けとは対照的に、勝ちマージンの情報をよりよく使用できる方法はありますか？文献で何を探すべきですか？

19 ranking rating bradley-terry-model elo

2

PCA / FAから保持された複数の主成分または因子から単一のインデックスを作成する

主成分分析（PCA）を使用して、研究に必要なインデックスを作成しています。私の質問は、PCAで計算された保持主成分を使用して、単一のインデックスを作成する方法です。たとえば、PCAを使用した後、3つの主成分を保持することにし、これら3つの主成分のスコアを計算しました。回答者ごとに、これら3つのスコアから単一のインデックスを作成する適切な方法は何ですか？ 3つの計算されたスコアを追加して複合値を取得することは重要ですか？または、3つのスコアを平均してそのような値を得るには？または、最初の主成分（最強）のみを保持し、そのスコアをインデックスとして使用する必要がありますか？あるいは、因子分析（FA）を使用することもできますが、同じ質問が残ります。複数の因子スコアに基づいて単一のインデックスを作成する方法ですか？

15 pca factor-analysis rating composite scale-construction

5

プレーヤーのセットがあります。彼らはお互いに対戦します（ペアワイズ）。プレイヤーのペアはランダムに選択されます。どのゲームでも、あるプレイヤーが勝ち、別のプレイヤーが負けます。プレイヤーは互いに限られた数のゲームをプレイします（一部のプレイヤーはより多くのゲームをプレイし、一部はより少ないゲームをプレイします）。そのため、データがあります（誰が誰に対して何回勝ちますか）。今、私はすべてのプレイヤーが勝利の確率を決定するランキングを持っていると仮定します。この仮定が実際に真実かどうかを確認したい。もちろん、EloレーティングシステムまたはPageRankアルゴリズムを使用して、すべてのプレーヤーのレーティングを計算できます。しかし、評価を計算することによって、それら（評価）が実際に存在すること、またはそれらが何を意味するかを証明しません。言い換えれば、私はプレイヤーが異なる強さを持っていることを証明する（またはチェックする）方法を持ちたいです。どうすればできますか？追加されました具体的には、8人のプレイヤーと18のゲームしかありません。そのため、互いに対戦しなかったプレイヤーのペアがたくさんあり、お互いに一度だけプレイしたペアがたくさんあります。結果として、私は与えられたプレーヤーのペアの勝利の確率を推定できません。たとえば、6ゲームで6回勝ったプレーヤーがいることもわかります。しかし、それは単なる偶然かもしれません。

13 goodness-of-fit ranking rating

2

インテリジェンス二乗スコアリングと勝者決定

Intelligence Squaredと呼ばれるNPRポッドキャストがあります。各エピソードは、「第2改正はもはや関係ない」または「大学のキャンパスでの積極的措置は、善よりも害をもたらす」などの論争的な声明に関するライブ討論の放送です。4人の代表者が討議します。2人は動議、2人は反対です。どちらが勝つかを決定するために、聴衆は討論の前後に投票されます。絶対パーセンテージでより多く獲得した側が勝者と見なされます。例えば： For Against Undecided Before 18% 42% 40% After 23% 49% 28% Winner: Against team -- The motion is rejected. 直観的には、この成功の尺度には偏りがあると思うので、公正な方法で勝者を決定するために聴衆をどのように投票するのか疑問に思っています。現在の方法ですぐにわかる3つの問題：極端な場合、一方が100％の合意で開始した場合、両者は結びつくか失うかしかできません。未決定がない場合、初期合意が少ない側は、描画元のサンプルサイズが大きいと見なすことができます。未決定の側が本当に未決定である可能性は低いです。両側が等しく分極されていると仮定すると、未決定の人口についての私たちの以前の信念は、それぞれが側に追いやられた場合、であると思われます。Beta(# For,# Against)ベータ（＃にとって、＃に対して）\text{Beta}(\text{# For}, \text{# Against}) オーディエンスポーリングに頼らなければならないことを考えると、勝者を判断するより公平な方法はありますか？

12 bayesian rating

2

誰かがイメージを好きになる確率

次の問題があります。 -N人のセット-K画像のセット -各人がいくつかの画像を評価します。人は画像が好きでも好まなくてもかまいません（これらは唯一の2つの可能性です）。-問題は、特定の画像が好きな人がいる可能性を計算する方法です。私の直感を示す例を挙げます。 N = 4 K = 5 +は、画像が好きであることを意味します - 画像が好きではないことを意味します0は、画像について質問されていないことを意味し、その値は予測されます x 1 2 3 4 5 1 + - 0 0 + 2 + - + 0 + 3 - - + + 0 4 - 0 - - - 人物1はおそらく画像3が好きで、人物2は好みが似ており、人物2は画像3が好きです。人物4はおそらく画像2が好きではないでしょう。そのような可能性を計算するために使用できるよく知られた方法はありますか？

11 missing-data rating

3

エキスパートセットを注文またはランク付けするにはどうすればよいですか？

ある分野の専門家を多数含むデータベースがあります。これらの各エキスパートについて、私は次のようなさまざまな属性/データポイントを持っています。経験年数。ライセンスレビューの数それらのレビューのテキストコンテンツ速度、品質などのさまざまな要因に対する、これらの各レビューの5つ星評価。賞、協会、会議などこれらの専門家の重要性に基づいて、10人中1人に評価を付けたいと思います。一部の専門家にとって、一部のデータポイントが欠落している可能性があります。今私の質問はどのように私はそのようなアルゴリズムを思いつくのですか？誰かが私にいくつかの関連文献を指摘できますか？また、私はすべての評価/レビューと同様に、いくつかの値の近くで数値がまとまる可能性があることを懸念しています。たとえば、それらのほとんどが8または5になる可能性があります。わずかな属性の違いを強調して、一部の属性のみのスコアのより大きな違いに変える方法はありますか？私が考えた他のいくつかの議論は関連しているかもしれません：各評価に複数のカテゴリがあるベイジアン評価システム IMDBの映画の評価をどのように計算しますか？専門家から事前情報を引き出す賛成票と反対票としての入力を使用した最良のランキングアルゴリズムにはどのようなものがありますか？

11 rating valuation

1

Eloレーティングシステムが間違った更新ルールを使用するのはなぜですか？

Eloレーティングシステムは、ペアの比較での結果の予想される確率と観測される確率の間のクロスエントロピー損失関数の勾配降下最小化アルゴリズムを使用します。一般的な損失関数は次のように書くことができます E= − ∑n 、ip私L O G（q私）E=−∑n,ipiLog(qi) E=-\sum_{n,i} p_i Log (q_i) ここで、合計はすべての結果およびすべての対戦相手nに対して実行されます。 p iはイベントiの観測された頻度であり、q iは予想される頻度です。私iiんnnp私pip_i私i_iq私qiq_i 可能性のある結果が2つ（勝ちまたは負け）で、対戦相手が1人の場合 E= − p L o g（q）− （1 − p ）L o g（1 − q）E=−pLog(q)−(1−p)Log(1−q) E=-p Log (q)-(1-p)Log(1-q) 場合はプレイヤーのランキングされたIおよびπ jはプレイヤーのランキングであるJ我々として期待確率に構築することができ、Q I = E π 私をπ私πi\pi_i私iiπjπj\pi_jjjjのq、J=E π Jqi=eπieπi+eπjqi=eπieπi+eπj q_i=\frac{e^{\pi_i}}{e^{\pi_i}+e^{\pi_j}} 後、勾配降下更新ルールのtell使用qj=eπjeπi+eπjqj=eπjeπi+eπj q_j=\frac{e^{\pi_j}}{e^{\pi_i}+e^{\pi_j}} π′i=πi−η(qi−pi)πi′=πi−η(qi−pi) \pi_i'=\pi_i-\eta (q_i-p_i) π′j=πj−η(qj−pj)πj′=πj−η(qj−pj) …

10 regression optimization rating

1

R線形回帰のカテゴリ変数「非表示」の値

これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する： a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因（要因x2であること）に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか？たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか？これの例を他の場所（例：ここ）で見ましたが、理解できる説明は見つかりませんでした。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

1

地域の科学フェアの勝者を公正に決定する方法は？

私のサイエンスフェアで勝者を計算する正しい方法を理解するのに助けが必要です。統計と数学についての無知が、子供の勝つチャンスを邪魔したくありません。（危機に瀕している多くの奨学金と進歩の利点）。よろしくお願いします。最初に、セットアップ方法の背景を少し説明します。私たちの見本市には通常、約600の学生プロジェクトがあります。これらのプロジェクトは、個々の学生または学生のチームによって完了および提示されます。チームは2人または3人の子供で構成できます。生徒は小学校（6〜8年生）と中学校（9〜12年生）の2つの部門に分かれています。各部門には異なるカテゴリがあります。初等プロジェクトの9つのカテゴリと二次部門プロジェクトの17のカテゴリです。賞は、各部門の各カテゴリの1位、2位、3位に与えられます。3位を超えるプレースメントには、名誉ある賞が贈られます。プロジェクトごとに、4人から6人の審査員を割り当てます。審査は、審査員の資格、カテゴリーの好み、過去の審査経験に基づいて行われます。（経験豊富な方は上級部門のプロジェクトに割り当てられます）。審査員によるプロジェクトの採点方法：各プロジェクトには、ポイントが割り当てられた5つの基準があります。各基準は1から20ポイントの間で授与されます。一般的な基準は次のとおりです。全体的な目標+仮説+リソースの使用（1..20）設計+手順（1..20）データ収集+結果（1..20）ディスカッション+結論（1..20）インタビュー（1..20）チームプロジェクトの場合、「チーム控除」と呼ばれる6番目の基準が評価されます。この場合、裁判官は、参加しなかった、または参加しなかったチームメイトに対してポイント（最大15）を差し引くことができます。チーム控除（0 ..- 15）したがって、裁判官はすべてのプロジェクトを5〜100ポイントで採点できます。プロジェクトがチームプロジェクトの場合、スコアは15ポイント減ります。生データ：数時間の間に、裁判官から最大3,600点のスコアを収集します。これらのスコアはデータベースに入力され、そこであらゆる種類の並べ替え、平均化、標準偏差の計算などを行うことができます。これらの生のスコアをどうすればよいのか正確にはわかりません。現在、私は各プロジェクトの単純な平均を行っていますが、裁判官のバイアス、チームの控除、または考慮していない他の多くのことについて調整していないのではないかと心配しています。望ましい結果：最後に、スコアを処理して、カテゴリごとに1位、2位、3位のプロジェクトを授与し、その後、後続の場所で名誉ある賞を授与できるようにしたいと思います。私はポジションが正しく計算され、勝利した子供たちが表彰（そして賞品）に値することを確信したいと思います。私の長い質問を読んで、これを理解するためのあなたの助けに感謝します。フォローアップの質問があれば、喜んでお答えします。

9 data-transformation standard-deviation rating

2

より少ない人々によって高く評価されたアイテムよりもより多くの人々によって高く評価されたアイテムを支持するために評価システムに重みを付けますか？

私と一緒に話してくれてありがとう、私はどのような統計学者でもないし、私が想像していることをどのように説明するのかわからないので、Googleはここで私を助けていません... 作業中のWebアプリケーションに評価システムを含めています。各ユーザーは各アイテムを1回だけ評価できます。「非常に嫌い」、「嫌い」、「好き」、「非常に好き」の4つの値を持つスケールを想像していて、それぞれ-5、-2、+ 2、+ 5の値を割り当てる予定でした。さて、すべてのアイテムが同じ数の評価を持つことになれば、私はこのスコアリングシステムに非常に満足し、最も好きなアイテムと最も嫌いなアイテムを明確に区別できます。ただし、アイテムの評価の数は同じではなく、異なる写真の投票数の格差は非常に劇的です。その場合、2つのアイテムの累積スコアを比較することは、平凡な評価が多い古いアイテムのほうが、投票数が少ない例外的な新しいアイテムよりもはるかに高いスコアになることを意味します。だから、私が平均を取ることを最初に考えた明らかなこと...しかし、アイテムが「+5」の評価が1つしかない場合、99「+5」のスコアを持つアイテムよりも平均が良い1つの「+2」評価。直感的には、これはアイテムの人気を正確に表すものではありません。私はこの問題が一般的だと思います。皆さんは私がもっと多くの例で問題を起こす必要はないので、この時点で停止し、必要に応じてコメントで詳しく説明します。私の質問は：この種の問題は何と呼ばれ、それを解決するために使用される技法の用語はありますか？読みたいので、これを知りたいのですが。この件に関する一般向けのリソースを知っている場合は、リンクをいただければ幸いです。最後に、この種のデータを効果的に収集および分析する方法に関する他の提案をいただければ幸いです。

9 scales rating

3

ランキングと評価スケールを一緒に分析する方法は？

一部の市場調査では、消費者は優先度に基づいて製品の機能をランク付けするよう求められています。例えば、優先度に基づいてデバイスの以下の機能をランク付けします（1が最優先） Storage capacity 6 Portability 5 Touch interface 1 Keyboard 4 Long battery life 2 Entertainment on the go 3 重要度に基づいて機能を1〜5のスケールで評価します（1は非常に重要です） 1 2 3 4 5 Storage capacity 1 Portability 3 Touch interface 1 Keyboard 1 Long battery life 2 Entertainment on the go 4 次に、ランキングと評価に基づいて、重みを割り当て、最終的に消費者がラップトップまたはタブレットPCのどちらを好むかを調べます。この例で、消費者がタッチを1、バッテリー寿命を2とランク付けしたとします。これらはタブレットの属性です。しかし、彼はキーボードとストレージ容量を最も重要であると評価しました。これはキーボードを備えたラップトップの機能です。これらを組み合わせて、おそらくいくつかの重みを割り当ててスコアを出すにはどうすればよいですか？スコアが特定のレベルを上回っている場合、消費者はタブレットを好み、特定のレベルを下回っている場合、消費者はラップトップを好みます。

8 regression factor-analysis survey ranking rating

2

Eloシステムを勝利のマージンが問題となるゲームに拡張するための一般原則

注意私はこのサイトを初めて使用するユーザーであり、質問の範囲がどのように決まるかはわかりません。（例を尋ねるなどして）広範になりすぎないように、意識的に質問を一般原則に限定しました。それでも、幅が広すぎる場合は、コメントで知らせて、それを絞り込む方法を提案してください。質問私は（チェスを通じて）Eloレーティングシステムとそれがどのように機能するかを知っています。基本的に、2人のプレーヤーの評価がわかっている場合は、両方のプレーヤーの予想スコアを計算し、実際のスコアに基づいて評価を調整できます。しかし、このシステムが、勝利のマージンが問題となるゲームにどのように適応するのか、疑問に思いました。具体的には、私は評価システムは、1つだけではなく、計算することができるように拡張することができるかと思いまし予想スコアだけでなく、勝敗の予想マージン 2選手/チームの評価を。試合後の評価を調整する際には、システムが実際のスコアと実際の勝利のマージンを考慮することも期待します。架空の例実際の詳細は、ここで説明するものと同じである必要はありませんが、一般的な考え方は次のようになります。チェルシーとマンシティのレーティングシステムが2000および2100であるレーティングシステムについて考えてみます。スコア（シティの場合は約0.64）だけでなく、勝利のマージンも予測できるレーティングシステムを探しています。どういうわけか、評価によってマンチェスターシティの予想マージンが+3.2になり、チームが2-0で勝ったことを考慮すると、システムがシティの評価を下げて、十分に大きなマージンで勝てなかったと思います。しかし、私は2つの変数（予想スコアと予想される勝利のマージン）が必要なのか、それとも1つ（予想スコア）が必要なのか疑問に思います。要するに Eloレーティングシステムを勝利のマージンが問題となるゲームに拡張するための一般的な原則と方法は何ですか？

7 rating

タグ付けされた質問 「rating」

タグ付けされた質問「rating」