データサイエンス

3

前書きさまざまな人々のさまざまな観察のデータセットがあり、他の人に最も近い人を知るために人々をグループ化したいとします。また、それらが互いにどれだけ近いかを知り、統計的有意性を知るための測定も必要です。データ eat_rate drink_rate sleep_rate play_rate name game 1 0.0542192259 0.13041721 5.013682e-03 1.023533e-06 Paul Rayman 4 0.0688171511 0.01050611 6.178833e-03 3.238838e-07 Paul Mario 6 0.0928997660 0.01828468 9.321211e-03 3.525951e-07 Jenn Mario 7 0.0001631273 0.02212345 7.061524e-05 1.531270e-07 Jean FIFA 8 0.0028735509 0.05414688 1.341689e-03 4.533366e-07 Mark FIFA 10 0.0034844717 0.09152440 4.589990e-04 5.802708e-07 Mark …

8 machine-learning r similarity correlation

4

スパムメールの検出を学ぶには？

スパムメール検出機能がどのように実行されるかを知りたい。私は市販の製品を作るつもりはありません。それは私にとって真剣な学習課題になります。したがって、私はフォローできる既存のプロジェクト、ソースコード、記事、論文などのリソースを探しています。私は例で学びたいのですが、一から学ぶだけでは十分ではないと思います。ベイジアンで手を汚したいのが理想です。そのようなものはありますか？プログラミング言語は私にとって問題ではありません。

8 machine-learning classification text-mining

4

Windows 8のコマンドプロンプトでpysparkアプリケーションを実行する方法

Sparkコンテキストで記述されたpythonスクリプトがあり、それを実行したいと思います。IPythonとSparkを統合しようとしましたが、できませんでした。そこで、スパークパス[Installation folder / bin]を環境変数として設定しようとして、cmdプロンプトでspark-submitコマンドを呼び出しました。私はそれがsparkのコンテキストを見つけることだと思いますが、それは本当に大きなエラーを生み出します。誰かがこの問題について私を助けてくれますか？環境変数のパス：C：/Users/Name/Spark-1.4; C：/Users/Name/Spark-1.4/bin その後、cmdプロンプトで：spark-submit script.py

8 python apache-spark pyspark ipython

2

Rで水平ボックスプロットを視覚化する

このようなデータセットがあります。データはアンケートを通じて収集されたので、いくつかの予備的なデータ分析を行います。 windows <- c("yes", "no","yes","yes","no") sql <- c("no","yes","no","no","no") excel <- c("yes","yes","yes","no","yes") salary <- c(100,200,300,400,500 ) test<- as.data.frame (cbind(windows,sql,excel,salary),stringsAsFactors=TRUE) test[,"salary"] <- as.numeric(as.character(test[,"salary"] )) データセットに結果変数（給与）といくつかの入力変数（ツール）があります。次のように水平ボックスプロットを視覚化するにはどうすればよいですか。

8 r visualization

1

テキストデータを300のカテゴリに分類するためにどの分類アルゴリズムを試すか

ヘルスケアドメインのテキストデータが40000行あります。データには、テキスト（2〜5文）の1つの列と、そのカテゴリの1つの列があります。それを300のカテゴリーに分類したい。一部のカテゴリは独立していますが、いくらか関連しています。カテゴリ間のデータの分布も均一ではありません。つまり、一部のカテゴリ（そのうちの約40）には、2〜3行程度のデータしかありません。各クラス/カテゴリのログ確率を添付しています。（またはクラスの分布）ここに。

8 machine-learning classification nlp text-mining

3

シーケンスデータのセグメンテーションのアルゴリズム

長さNのベクトルの大きなシーケンスがあります。これらのベクトルをMセグメントに分割するには、教師なし学習アルゴリズムが必要です。例えば： K平均法は、異なる場所からの類似した要素を単一のクラスターに入れるため、適切ではありません。更新：実際のデータは次のようになります。ここでは、3つのクラスターが表示されます。 [0..50], [50..200], [200..250] アップデート2：私は修正されたk-meansを使用して、この許容できる結果を得ました：クラスターの境界： [0, 38, 195, 246]

8 machine-learning clustering sequence

4

モデルがモデル化されているものに作用し、それによって概念が変わるときの用語は何ですか？

私は、文学の研究や執筆で私を助けるために、この概念に慣習的な用語があるかどうかを確認しようとしています。機械学習モデルが現実の世界で将来のインスタンスに影響を与えるアクションを起こすとき、それは何と呼ばれますか？ある特定の製品を推奨し、別の特定の製品を推奨しないレコメンダーシステムのようなものを考えています。次に、誰かが最初の製品を購入する可能性を高め、誰かが2番目の製品を購入する可能性を減らしました。したがって、これらの販売数は最終的にトレーニングインスタンスになり、一種のフィードバックループが作成されます。これに用語はありますか？

8 machine-learning terminology

3

データのロギング中のインタラクティブグラフ

私はグラフを作成し、ライブ/継続的に測定されたデータをインタラクティブに調査したいと考えています。非常に多くのオプションがあり、plot.lyが最もユーザーフレンドリーです。Plot.lyには、素晴らしく使いやすいUI（簡単にスケーラブル、パン、簡単にズーム/画面に合わせる）がありますが、収集する大量のデータを処理できません。誰かが代替案を知っていますか？私はMATLABを持っていますが、これを同時に実行して同時に開発を行うための十分なライセンスがありません。私はLabVIEWが素晴らしい選択肢になることを知っていますが、それは現在非常に費用がかかります。前もって感謝します！

8 dataset visualization

1

ドキュメント分類：機能フィルタリングの前または後のtf-idf？

文書分類プロジェクトで、サイトのコンテンツを取得し、コンテンツに応じて多数のラベルの1つをWebサイトに割り当てています。これにはtf-idfが非常に役立つことがわかりました。しかし、それをいつ使うべきか正確には分かりませんでした。特定のトピックに関連するウェブサイトが繰り返し言及していると仮定すると、これは私の現在のプロセスでした：サイトのコンテンツを取得し、プレーンテキストを解析するコンテンツの正規化とステムトークン化してユニグラムにします（おそらくバイグラムも）指定されたドキュメントの各ユニグラムの数を取得し、長さが短く出現頻度の低い単語をフィルタリングします結果セットでNaiveBayesなどの分類子をトレーニングします私の質問は次のとおりです：tf-idfはここにどこに適合しますか？正規化/ステミングの前に？正規化後、トークン化前？トークン化した後？どんな洞察もいただければ幸いです。編集：よく調べてみると、TF-IDFの動作について誤解していたのではないかと思います。上記のステップ4 で、データ全体を一度にTF-IDF にフィードする必要がありますか？たとえば、私のデータが次のような場合： [({tokenized_content_site1}, category_string_site1), ({tokenized_content_site2}, category_string_site2), ... ({tokenized_content_siten}, category_string_siten)}] ここで、最も外側の構造は、タプルを含み、辞書（またはハッシュマップ）と文字列を含むリストです。私が養うために必要があります全体所望の効果を達成するために、一度にTF-IDFの計算にそのデータのか？具体的には、これを行うためにscikit-learn TfidfVectorizerを検討してきましたが、例がかなりまばらなので、その使用については少しわかりません。

8 classification feature-selection feature-extraction

2

データ内のユーザー名を匿名化するためのベストプラクティスは何ですか？

データマイニング技術を使用してさらに分析するために、元のテキストデータを他の学生に共有するように依頼するプロジェクトに取り組んでいます。提出物で学生名を匿名化するのが適切だと思います。学生が自分の作品を提出し、バックエンドスクリプトが匿名化されたIDを挿入するURLのより優れたソリューションを別にして、自分の名前を匿名化するために、学生が自分で実装するようにどのようなソリューションを指示できますか？私はまだこの分野の初心者です。私は標準が何であるか知りません。私はその解決策がハッシュアルゴリズムかもしれないと考えていました。2人が同じ偽の名前を選ぶことができるので、それは偽の名前を作るよりも良い解決策のように思えます。可能性のある人々は同じ偽の名前を選ぶことができます。私が知っておくべき懸念のいくつかは何ですか？

8 machine-learning data-cleaning

2

二部グラフでのユニオンのグループ化？

私は次の問題に対する優れた（そして高速な）解決策を見つけ出そうとしています：使用しているモデルが2つあります。それらをプレイヤーとチームと呼びましょう。プレーヤーは複数のチームに所属でき、チームは複数のプレーヤーを持つことができます）。ユーザーが複数のチーム（チェックボックス）を選択できるようにするフォーム上のUI要素の作成に取り組んでいます。ユーザーがチームを選択（または選択解除）しているときに、プレーヤーごとにグループ化されたチームを表示します。例として：選択したチームに交差するプレーヤーがいない場合、各チームには独自のセクションがあります。ユーザーが2つのチームを選択し、それらに同じプレーヤーがいる場合、2つのチームとすべてのプレーヤーの名前を含むセクションが1つあります。 TEAM_Aにプレーヤー[1、2、4、5]があり、TEAM_Bにプレーヤー[1、3、5、6]がある場合。次のセクションがあります：SECTION_X = [TEAM_A、TEAM_B、1、5]、SECTION_Y = [TEAM_A、2、3]、SECTION _Z = [TEAM_B、3、5] 私はそれが明確であることを望みます。基本的に、プレイヤーが共通して持っているチームを見つけ、それによってグループ化したいと考えています。私は多分二部グラフをナビゲートしてこれを行う方法があるのではないかと思っていましたか？正確にはわからないけど、考えすぎているかもしれません。サーバー上にあるタイプのデータ構造を作成し、それをクライアント上で使用することでこれを実現したいと思っていました。私はあなたの提案を聞きたいと思います、そしてあなたが与えることができるどんな助けにも感謝します！

8 graphs

2

NLPを使用してユーザーの説明の分類を自動化する

会社が所有する製品に関する顧客からの苦情の巨大なファイルがあり、それらの説明についてデータ分析を行い、それぞれにカテゴリをタグ付けしたいと考えています。たとえば、顧客の苦情から、製品のソフトウェアおよびハードウェア側の苦情の数を把握する必要があります。現在、私はデータ分析を行うためにExcelを使用しています。これは、苦情にタグ名を取得するためにかなりの量の手動作業を求めています。このプロセスを自動化するモデルを構築およびトレーニングする方法はNLPにありますか？私は過去2日間、NLPに関するものを読んでいますが、NLPにはこの問題への取り組みを始めるための優れた機能がたくさんあるようです。誰かが、NLPを使用してこの問題に対処する方法を教えてくれませんか？

8 data-mining classification nlp categorical-data

1

ランダムフォレストでのtf-idfとtfの違い

私は、分類子としてランダムフォレストを使用したテキスト分類問題と、バッグオブワードアプローチに取り組んでいます。私は、ランダムフォレスト（scikitに存在するもの）の基本的な実装を使用しています。これは、分割ごとに1つの変数にバイナリ条件を作成します。これを考えると、単純なtf（項頻度）機能の使用に違いがありますか？各単語には、ドキュメント内の出現回数を表す関連する重み、またはtf-idf（用語の頻度*逆のドキュメントの頻度）があり、用語の頻度には、ドキュメントの総数間の比率を表す値も乗算されます。および単語を含むドキュメントの数）？私の意見では、これらの2つのアプローチの間に違いはないはずです。違いは各機能のスケーリング係数だけなのでですが、分割は単一の機能のレベルで行われるため、違いはないはずです。私の推論は正しいですか？

8 classification text-mining random-forest

1

データサイエンスまたは予測モデリングでのキャリアに関する提案

私は意思決定科学または予測モデリングの分野で自分のキャリアを選択したいと考えています。これは一種の意見に基づいていることは承知していますが、専門家から、それを使用して正しいパスでキャリアを構築できるという提案をしたいと思います。R、SAS、その他のツールについて教えてください。データサイエンス、機械学習、または予測モデリングで作業するために知っておくべきことは何ですか。私にとって、従うべきステップを特定するのに問題があります。従うべきいくつかのステップを教えてください。

8 education beginner career

3

広告配信以外のユーザーデータ収集の用途は何ですか？

これは、この質問に最も適した場所のようです。すべてのウェブサイトはユーザーのデータを収集しますが、一部は使いやすさとパーソナライズのためですが、ソーシャルネットワークのような大部分は、ウェブ上のすべての動きを追跡し、一部の無料アプリは携帯電話のスキャンテキストメッセージ、通話履歴などを追跡します。このすべてのデータの吸い上げは、広告主にプロファイルを販売するためだけのものですか？

8 data-mining