StackExchange Webサイトでの機械学習メソッドの適用


37

今学期には機械学習コースがあり、教授は実世界の問題を見つけて、クラスで導入された機械学習方法の1つでそれを解決するように依頼しました。

私はstackoverflowstackexchangeのファンの1人であり、これらのウェブサイトのデータベースダンプが素晴らしいので一般に提供されていることを知っています!これらのデータベースに関する優れた機械学習の課題を見つけて解決できることを願っています。

私の考え

私が思いついたアイデアの1つは、質問本文に入力された単語に基づいて質問のタグを予測することです。ベイジアンネットワークは質問のタグを学習するのに適したツールだと思いますが、さらに調査が必要です。とにかく、ユーザーが質問の入力を終えた段階を学習した後、いくつかのタグが彼に提案されるべきです。

教えてください

MLに関する2つの質問について、統計コミュニティに経験豊富な人々に尋ねたいと思います。

  1. タグの提案は少なくとも解決する可能性がある問題だと思いますか?それについて何かアドバイスはありますか?stackexchangeはまだそのような機能を実装していないので、少し心配です。

  2. stackexchangeデータベースに基づくMLプロジェクトのその他の/より良いアイデアはありますか?stackexchangeデータベースから学ぶべきものを見つけるのは本当に難しいと思います。


データベースエラーに関する考慮事項: データベースは巨大で、多くのインスタンスを持っていますが、完全ではなく、エラーが発生しやすいことを指摘したいと思います。明白なのは、信頼できないユーザーの年齢です。質問に対して選択されたタグでさえ、100%正確ではありません。とにかく、問題を選択する際にデータの正確性の割合を考慮する必要があります。

問題自体についての考察:私のプロジェクトはdata-miningこのようなものであってはなりません。それは、実世界でのMLメソッドのアプリケーションであるべきです。

回答:


28

はい、タグの予測は興味深いものであり、「成功」に優れていると思います。

以下は、このトピックのブレーンストーミングとさらなる調査を支援する可能性のあるいくつかの考えです。このようなプロジェクトがとれる可能性のある興味深い方向性はたくさんあると思います。以下の1つまたは2つだけで真剣な試みを行うと、適切なプロジェクト以上のものになり、私が提起したものよりも興味深い質問が出てくる可能性が高いと思います。

私は機械学習と見なされるものについて非常に広い視野を持っています。間違いなく、私の提案のいくつかは、探索的データ分析とより伝統的な統計分析に分類されるでしょう。しかし、おそらく、あなたがあなた自身の興味深い質問を作成するとき、それはいくつかの小さな方法で役立つでしょう。サイトの機能を強化するという点で興味深いと思う質問に対処しようとしています。もちろん、他にも多くの興味深い質問がありますが、それらはサイトの親しみやすさに関連するものではないかもしれません。

  1. ユーザーの行動の基本的な記述分析:このサイトへのユーザーの参加には、非常に明確な周期的な週次パターンがあると推測しています。サイトのトラフィックが最も多くなるのはいつですか?サイトへのユーザーの参加のグラフは、たとえば1週間の時間ごとに層別化されたように見えますか?時間の経過に伴うサイトの全体的な人気の潜在的な変化に合わせて調整する必要があります。これは疑問につながります。サイトの人気は最初からどのように変わりましたか?「典型的な」ユーザーの参加は、参加してからどのように変化しますか?スタート時にはかなり急速に上昇し、その後プラトーになり、おそらく数週間かそこらで参加した後、南に向かっていると思います。
  2. 質問と回答の最適な提出:最初の質問について洞察を得ることは、自然に、より興味深い(MLの意味で)質問につながるようです。答えが必要な質問があるとしましょう。回答を得る確率を最大限にしたい場合、いつ提出すればよいですか?質問に回答するときに投票数を最大化したい場合、いつ回答を提出すればよいですか?たぶん、これら2つの答えは非常に異なっています。これは、質問のトピックによってどのように異なりますか(たとえば、関連するタグによって定義されているなど)。
  3. ユーザーとトピックの二重クラスター化:おそらくタグによって測定されるように、どのユーザーが興味の点で最も似ているでしょうか?どのユーザーが参加するかに応じて、どのトピックが最も似ていますか?これらの関係をうまく視覚化できますか?これの派生物は、どのユーザーが特定の質問への回答を送信する可能性が最も高いかを予測しようとすることです。(このようなテクノロジーをSEに提供して、単にタグに基づくのではなく、潜在的に興味深い質問をユーザーに通知できると想像してください。)
  4. 行動による回答者のクラスタリング:回答者がこのサイトを使用する方法に関して、いくつかの異なる基本的な行動パターンがあるようです。振る舞いに応じて回答者をクラスタリングするための機能とクラスタリングアルゴリズムを考案できますか クラスターは解釈可能ですか?
  5. 新しいタグの提案:現在データベースにある質問と回答からトピックを推測することに基づいて、新しいタグの提案を思いつくことができます。たとえば、タグ[mixture-model]が最近追加されたのは、関連する質問がたくさん寄せられていることに誰かが気付いたからだと思います。しかし、情報検索のアプローチは、そのようなトピックを直接抽出し、モデレーターに潜在的にそれらを提案できるはずです。
  6. 地理的位置の半教師付き学習:(これはプライバシーの観点から少し扱いにくいかもしれません。)一部のユーザーは、彼らがいる場所をリストします。他の人はしません。使用パターンと潜在的な語彙などを使用して、各ユーザーの位置に地理的信頼領域を配置できますか?直観的には、これは緯度よりも経度の点で(はるかに)正確であると思われます。
  7. 重複の可能性と関連性の高い質問の自動フラグ設定:サイトには、同様の機能がすでにあり、右マージンに関連バーがあります。ほぼ正確な複製を見つけてそれらを提案することは、モデレーターにとって有用です。SEコミュニティのサイト間でこれ行うことは新しいように思われます。
  8. 解約予測とユーザー維持:各ユーザーの履歴の機能を使用して、次にそれらを表示する予定の時間を予測できますか?彼らが休んでいる期間と過去の行動の特徴を条件として、彼らがサイトに戻る確率を予測できますか?これは、たとえば、ユーザーが「解約」の危険にさらされていることに気付き、それらを保持するために(電子メールなどを介して)関与させるために使用できます。典型的なアプローチは、一定の非アクティブ期間の後に電子メールを発射します。しかし、各ユーザーは非常に異なり、多くのユーザーに関する多くの情報があるため、よりカスタマイズされたアプローチを開発できます。

1
@枢機.。それは素晴らしい答えであり、このすべてのデータが利用可能であれば、魅力的なプロジェクトになります。
-richiemorrisroe

1
あなたの提案のほとんどは、私にとって実用的でMLに関連しているようです。とにかく、それらのいくつかは、誤った不完全なデータを処理する必要があります。悲しいことに、データマイニングとクレンジングに関する深い知識も、学習するのに十分な時間もありません。統計の他のメンバーがこれらのアイデアについて何らかの仕事をし、SEコミュニティに貢献し、それらに感銘を与えることを願っています:)
Isaac

2
@Isaac、私が提供したリストは圧倒するつもりはなかった。ブレーンストーミングの潜在的な支援を目的としています。プロジェクトの性質にもよりますが、1〜2個の処理が最も期待できると思います。乾杯。
枢機

1
すべてのアイデアは良いか素晴らしいですが、私は「ユーザーとトピックのバイクラスタリング」が一番好きです。
ステフェン

9

私もタグの予測について考えていました、私はそのアイデアが好きです。私はそれが可能であると感じていますが、最終的なデータセットに到達する前に多くの問題を克服する必要があるかもしれません。そのため、タグの予測には多くの時間がかかると推測します。誤ったタグに加えて、最大5タグの制限が役割を果たす場合があります。また、一部のタグは他のタグのサブカテゴリです(たとえば、「多重比較」は「有意性テスト」のサブカテゴリと見なすことができます)。

ダウンロード可能なデータベースにアップ投票が含まれているかどうかはチェックしませんでしたが、よりシンプルで興味深いプロジェクトは、最初の投票に応じて質問の「最終」投票数(おそらく5か月後)を予測することです。および回答を受け入れるタイミング。


私が覚えていると思われることから、各ユーザーには、日付と質問IDで投票します。
-chl

(+1)投票予測。いい案!
ステフェン

1
このプロジェクトは、特にユーザーのvpvoteカウントをすぐに予測する場合は素晴らしいようです。さらなる作業として、ユーザーに質問を抑制しているものと、改善することで質問を人気にするものをユーザーに伝えることができます。とにかく、常に機能の選択は本当に重要でやりがいのあるタスクであり、そのような予測のパフォーマンスはこの選択に大きく依存します。TL; DRあなたのアイデアが好き
アイザック

2

これはいい質問です。私も、公開されているStackExchangeデータセットが分析の良い題材になると考えました。これらは非常に珍しいため、新しい統計手法のテストベッドとしても適しています。このような大量の適切に構造化されたデータを持つことは、とにかく珍しいことです。

枢機は、StackExchangeに実際に役立つ一連のことを提案しました。私はこれに限定しません。

明らかな用途はありませんが、ここに分析の1つの明白な候補があります。他の条件が同じであれば、高回答ユーザーが賛成票を獲得する可能性が高いことは注目に値する効果です。ただし、この効果はおそらくモデルにとって重要です。ユーザー間で有用性を比較することは非常に簡単ではないため、ユーザーの回答が常に同じように有用であると想定し(一般的には正しくありませんが、どこかから始める必要があります)、その後、彼の評判の高まりを説明するためにインフレ用語を追加します。その後、経験を増やすことで彼の答えが良くなることを説明するいくつかの用語を追加することができると思います。たぶん、これはある種の時系列によって処理されるでしょう。間隔のデータがこれにどのように影響するかはわかりません。面白い練習になるかもしれません。

考えられる場合は、さらに例を追加します。

SEデータに基づいた統計研究論文を知っている人はいますか?また、Isaacはデータにエラーがあると述べました。誰もこれについて何か知っていますか?


これは確かに興味深い質問であり、AndyWがしばらく前のブログ投稿と質問で分析し始めたと思うものです。「注目に値する」そのような効果が存在するというあなたの声明に興味がありますが、実際に存在するとは完全に確信していません。次に、これをモデル化する方法を提案しますが、通常、肯定的な答えがすでにあると言っている正確な質問に答える試みを行うことは含まれませんか?
枢機

@cardinal:ブログの投稿へのリンクはありますか?私はあなたの最後の文章を理解しているかどうかわかりません。テス、少なくともユーザーの名前がスキートである場合、その効果は本物で目立つと思いますが、現時点ではこれは単なる逸話的な印象ですが、強い印象です。したがって、必要に応じて、「注目すべき効果」を仮説に置き換えることができます。分析はもちろん、それを確認または拒否しようとし、存在する場合は効果の強さを測定します。
ファヒームミタ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.