タグ付けされた質問 「information-retrieval」

6
テキストの統計的分類
私は統計的背景のないプログラマーであり、現在、事前に定義されたカテゴリーに分類したい多数の異なる文書について、異なる分類方法を検討しています。私はkNN、SVM、NNについて読んでいます。ただし、開始するのに苦労しています。どのリソースをお勧めしますか?私は単一変数および多変数計算を非常によく知っているので、私の数学は十分に強力でなければなりません。私は、Neural Networksに関するBishopの本も所有していますが、序論としては少々高密度であることが証明されています。

2
ドキュメントの類似性の測定
(テキスト)ドキュメントをクラスタ化するには、ドキュメントのペア間の類似性を測定する方法が必要です。 次の2つの選択肢があります。 コサイン類似性とTF / IDFを用語の重み付けとして使用して、文書を用語ベクトルとして比較します。 カルバック・ライブラー発散など、 f発散を使用して各ドキュメントの確率分布を比較する 1つの方法を他の方法よりも好む直感的な理由はありますか(100語の平均ドキュメントサイズを想定)。

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
平均平均精度と平均逆数ランク
MAPを使用するのが適切な時期とMRRを使用する時期を理解しようとしています。MRRは、関連する結果の数が5未満の場合に最適であり、1の場合に最適であるというこのプレゼンテーションを見つけました。他のケースではMAPが適切です。2つの質問があります。 なぜそうなのかよくわかりません。 この主張の引用可能な引用文献が見つかりません。 私は非常に強い統計的背景を持っていないので、素人の説明が大いに役立つことに注意してください。ありがとうございました。

1
LSAとpLSAの間の並列
pLSAの最初の論文では、著者のThomas Hoffmanが、pLSAとLSAのデータ構造の類似点を説明します。 バックグラウンド: 情報検索からインスピレーションを得て、ドキュメントのコレクション と用語の語彙NNND={d1,d2,....,dN}D={d1,d2,....,dN}D = \lbrace d_1, d_2, ...., d_N \rbraceMMMΩ={ω1,ω2,...,ωM}Ω={ω1,ω2,...,ωM}\Omega = \lbrace \omega_1, \omega_2, ..., \omega_M \rbrace コーパス で表すことができる cooccurencesのマトリックス。XXXN×MN×MN \times M 潜在的意味AnalisysによってSVD行列 3つの行列に因数分解される: ここでと特異値でありますとのランクである。XXXX=UΣVTX=UΣVTX = U \Sigma V^TΣ=diag{σ1,...,σs}Σ=diag{σ1,...,σs}\Sigma = diag \lbrace \sigma_1, ..., \sigma_s \rbraceσiσi\sigma_iXXXsssXXX 次に、図に示すように、のLSA近似が計算され、3つの行列がいくつかのレベルに切り捨てられます。X = U Σ ^ V T K < SXXX X^=U^Σ^VT^X^=U^Σ^VT^\hat{X} = …

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
感情分析の理解と適用
私は、いくつかのドキュメントコレクションの感情分析を行うプロジェクトに割り当てられていたところです。グーグルによって、多くの感情関連の研究が浮上しています。 私の質問は: 機械学習と統計分析の分野における感情分析の主な方法/アルゴリズムは何ですか? 確立された結果はありますか? 感情分析を実行できる既存のオープンソースソフトウェアはありますか?

1
Lucene IDFに一見追加+1があるのはなぜですか?
Luceneのドキュメントから IDF=1+log(numDocsdocFreq+1)IDF=1+log⁡(numDocsdocFreq+1)\text{IDF} = 1 + \log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) 他の参照(つまり、ウィキペディア)では、IDFは通常または、0によるダイビングを回避します。log(numDocsdocFreq)log⁡(numDocsdocFreq)\log\left(\frac{\text{numDocs}}{\text{docFreq}}\right)log(numDocsdocFreq+1)log⁡(numDocsdocFreq+1)\log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) LuceneがTFの計算にではなく使用していることも知っていますが、これはおそらくを避けるための好ましい変換であると私は理解してい。x−−√x\sqrt{x}log(x)log⁡(x)\log(x)log(0)log⁡(0)\log(0) 誰かがIDF用語でその追加の+1を説明できますか?

2
コーエンのカッパは2つの判断にのみ使用できますか?
私はコーエンの河童を使用して、2人の裁判官間の同意を計算しています。 次のように計算されます。 P(A )− P(E)1 − P(E)P(あ)−P(E)1−P(E) \frac{P(A) - P(E)}{1 - P(E)} ここで、は一致の割合、は偶然の一致の確率です。P (E )P(A )P(あ)P(A)P(E)P(E)P(E) 次のデータセットの場合、期待される結果が得られます。 User A judgements: - 1, true - 2, false User B judgements: - 1, false - 2, false Proportion agreed: 0.5 Agreement by chance: 0.625 Kappa for User A and B: -0.3333333333333333 両方の裁判官があまりよく合意していないことがわかります。ただし、次の両方の裁判官が1つの基準を評価する場合、カッパはゼロと評価されます。 …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.