データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

5
ニューラルネットワーク用の最高のジュリアライブラリ
基本的なニューラルネットワークの構築と分析にこのライブラリを使用しています。 ただし、多層ニューラルネットワークなどの構築はサポートされていません。 それで、私はジュリアで高度なニューラルネットワークとディープラーニングを行うための素晴らしいライブラリを知りたいです。

1
MinHashing vs SimHashing
クラスター化する5つのセットがあるとします。ここで説明するSimHashingテクニックは次のとおりです。 https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ たとえば、結果が次の場合、3つのクラスター({A}、{B,C,D}および{E})を生成できます。 A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 同様に、MMDSブックの第3章で説明されているMinHashingテクニック: http://infolab.stanford.edu/~ullman/mmds/ch3.pdf 結果が次の場合、同じ3つのクラスターを生成することもできます。 A -> h01 - h02 - h03 B -> h04 - h05 - h06 | C -> h04 - h07 - h08 | D -> h09 - h10 - …

7
データサイエンティストの「旧名」とは何ですか?
「データサイエンス」や「データサイエンティスト」などの用語は、最近ますます使用されています。多くの企業が「データサイエンティスト」を採用しています。しかし、私はそれが完全に新しい仕事だとは思わない。データは過去から存在し、誰かがデータを処理する必要がありました。「データサイエンティスト」という用語は、より空想的で「セクシー」に聞こえるため、より一般的になると思います。過去にデータサイエンティストはどのように呼ばれていましたか?
12 bigdata 

2
航空運賃-競争力のある価格設定行動と価格の相関関係を検出するには、どのような分析を使用する必要がありますか?
航空会社の価格設定行動、特に競合他社の価格設定に対する航空会社の反応を調査したいと思います。 より複雑な分析についての私の知識はかなり限られていると言えますが、データの全体的なビューを収集するために、ほとんどすべての基本的な方法を実行しました。これには、類似のパターンを識別するのにすでに役立つ簡単なグラフが含まれます。SAS Enterprise 9.4も使用しています。 しかし、私はより多くの数値ベースのアプローチを探しています。 データセット 私が使用している(自己)収集データセットには、約54.000の運賃が含まれています。すべての運賃は、毎日(毎晩00:00)60日以内に収集されました。 したがって、その時間枠内のすべての運賃は、運賃の利用可能日および運賃の回収日までに通過するフライトの出発日を条件としてnnn回発生します。 (フライトの出発日が過去の場合、フライトの運賃を徴収することはできません) 基本的に次のように見える書式なし:(偽のデータ) +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 915.32 …

1
ハッシュトリック-実際に何が起こるか
MLアルゴリズム、たとえばVowpal Wabbitや、クリックスルーレートコンペティション(Kaggle)に勝ついくつかの因数分解マシンが、機能が「ハッシュ化されている」と言及するとき、実際にはモデルにとって何を意味するのでしょうか?インターネットアドのIDを表す変数があり、「236BG231」などの値をとるとしましょう。次に、この機能がランダムな整数にハッシュされることを理解しています。しかし、私の質問は: モデルで現在使用されている整数(整数(数値)または ハッシュされた値は、実際にはまだカテゴリー変数のように扱われ、ワンホットエンコードされていますか?したがって、ハッシュのトリックは、単に大きなデータで何らかの形でスペースを節約することですか?

3
非構造化テキスト分類
非構造化テキスト文書、つまり構造が不明なWebサイトを分類します。私が分類しているクラスの数は限られています(この時点で、3つ以上はないと考えています)。誰が私がどのように始めることができるかについて提案していますか? 「言葉の袋」アプローチはここで実行可能ですか?後で、文書構造(おそらく決定木)に基づいて別の分類段階を追加できます。 私はMahoutとHadoopにある程度精通しているため、Javaベースのソリューションを好みます。必要に応じて、ScalaやSparkエンジン(MLライブラリ)に切り替えることができます。

2
絵文字の感情データ
実験では、多くのツイートに埋め込まれた絵文字を、単純な定量的衛生分析のグラウンドトゥルース/トレーニングデータとして使用したいと思います。通常、ツイートは構造化されていないため、NLPがうまく機能しません。 とにかく、Unicode 6.0には722個の絵文字があり、Unicode 7.0にはおそらく250個の絵文字が追加されるでしょう。 センチメントアノテーションを含むデータベース(SentiWordNetなど)はありますか? (SentiWordNetは曖昧な意味も許容していることに注意してください。例えば、面白いだけでなく、「これは面白い味」はおそらくプラスではありません;-)。通常の単語よりも絵文字の方が...) また、感情分析にそれらを使用した経験がある場合、私は聞いてみたいと思います。

3
n-gramによってインデックス付けされたデータを保存するための効率的なデータベースモデル
私は、大きなテキストコーパスに存在するn-gramの非常に大きなデータベースを作成する必要があるアプリケーションに取り組んでいます。 3つの効率的な操作タイプが必要です。n-gram自体によってインデックス化されたルックアップと挿入、およびサブn-gramを含むすべてのn-gramのクエリ。 データベースは巨大なドキュメントツリーである必要があり、Mongoなどのドキュメントデータベースはうまく機能するはずですが、大規模に使用したことはありません。 Stack Exchangeの質問形式を知っているので、特定のテクノロジに関する提案を求めているのではなく、このようなものを大規模に実装するために探しているデータベースのタイプを求めていることを明確にしたいと思います。
12 nlp  databases 

3
請求データの過去の状態から次の病状を予測する
私は現在、いくつかの研究室や薬局の請求を含む健康保険請求データの大規模なセットで作業しています。ただし、データセットで最も一貫性のある情報は、診断(ICD-9CM)と手順コード(CPT、HCSPCS、ICD-9CM)で構成されています。 私の目標は次のとおりです。 慢性腎臓病などの医学的状態に最も影響を与える前駆症状(併存疾患)を特定します。 患者が過去に持っていた状態に基づいて病状を発症する可能性(または確率)を特定します。 1および2と同じですが、手順または診断、あるいはその両方を行います。 できれば、結果は医師によって解釈可能である Heritage Health Prize Milestoneの論文のようなものを見て、そこから多くのことを学びましたが、彼らは入院の予測に焦点を合わせています。 だからここに私の質問があります:このような問題に対してどの方法がうまく機能すると思いますか?また、ヘルスケアと臨床医学に関連するデータサイエンスアプリケーションと方法について学習するには、どのリソースが最も役立ちますか? EDIT#2でプレーンテキストテーブルを追加します。 CKDは標的疾患であり、「慢性腎臓病」、「。any」はいつでもその状態を獲得したことを示し、「。isbefore.ckd」はCKDの最初の診断前にその状態にあったことを示します。他の略語は、ICD-9CMコードグループによって識別される他の条件に対応しています。このグループ化は、インポートプロセス中にSQLで発生します。patient_ageを除く各変数はバイナリです。

3
サンプルサイズが異なるさまざまな分類器のパフォーマンスの測定
現在、テキストから抽出されたさまざまなエンティティでいくつかの異なる分類子を使用しており、特定のデータセット全体でそれぞれの分類子がどれだけうまく機能しているかの要約として精度/リコールを使用しています。 これらの分類器のパフォーマンスを同様の方法で比較する有意義な方法があるかどうか疑問に思っていますが、分類されているテストデータの各エンティティの総数も考慮しますか? 現在、パフォーマンスの尺度として精度/リコールを使用しているため、次のようなものがあります。 Precision Recall Person classifier 65% 40% Company classifier 98% 90% Cheese classifier 10% 50% Egg classifier 100% 100% ただし、これらを実行しているデータセットには、10万人、5万社、500チーズ、1卵が含まれている可能性があります。 では、上記の表に追加できる要約統計量はありますが、これは各アイテムの合計数も考慮に入れていますか?または、たとえば、卵分類器の100%prec / recが1つのデータ項目だけでは意味がないかもしれないという事実を測定する方法はありますか? このような分類子が何百もあったとしましょう。「どの分類子がパフォーマンスが低いのか、どの分類子がパフォーマンスが低いかどうかを判断するのに十分なテストデータがない」などの質問に答える良い方法を探していると思います。

1
グローバル圧縮方式とユニバーサル圧縮方式の違いは何ですか?
圧縮方法は主に2つのセットに分けられることを理解しています。 グローバル 地元 最初のセットは、処理されるデータに関係なく機能します。つまり、データの特性に依存しないため、データセットのどの部分でも(圧縮自体の前に)前処理を実行する必要はありません。一方、ローカルメソッドはデータを分析し、通常は圧縮率を向上させる情報を抽出します。 これらの方法のいくつかについて読んでいると、単項法は普遍的ではないことに気づきました。「グローバル性」と「普遍性」は同じものを指すと思っていたので驚きました。単項メソッドは、エンコードを生成するためにデータの特性に依存しません(つまり、グローバルメソッドです)。したがって、グローバル/ユニバーサルである必要があります。 私の主な質問: ユニバーサルメソッドとグローバルメソッドの違いは何ですか? これらの分類は同義語ではありませんか?

2
プリファレンスマッチングアルゴリズム
次の問題の解決策を構築する必要がある場所で作業しているこのサイドプロジェクトがあります。 私は2つのグループの人々(クライアント)を持っています。グループAはB決まった製品を購入し、グループは売却するつもりですX。製品は、一連の属性を持っているx_i、と私の目的は、間の取引を促進することであるAとB自分の好みを照合することによってを。主なアイデアはA、Bその製品が彼のニーズにより適しているか、その逆の対応する各メンバーを指摘することです。 問題の複雑な側面: 属性のリストは有限ではありません。バイヤーは非常に特定の特性またはある種のデザインに興味があるかもしれませんが、これは人口の間ではまれであり、私は予測できません。以前にすべての属性をリストすることはできません。 属性は、連続、バイナリ、または数量化不可能(例:価格、機能、デザイン); この問題にアプローチし、自動化された方法で解決する方法に関する提案はありますか? また、可能であれば、他の同様の問題への参照も歓迎します。 素晴らしい提案!私が問題にアプローチすることを考えている方法との多くの類似点。 属性のマッピングに関する主な問題は、製品を説明する詳細レベルが各バイヤーに依存することです。車の例を見てみましょう。製品「車」には、性能、機械的構造、価格など、さまざまな属性があります。 安い車か電気自動車が欲しいだけだとしよう。わかりました。この製品の主な機能を表しているため、マッピングは簡単です。しかし、たとえば、デュアルクラッチトランスミッションまたはキセノンヘッドライトを搭載した車が欲しいとしましょう。データベースにはこの属性を持つ多くの車が存在する可能性がありますが、それらを探している人がいるという情報の前に、売り手にこのレベルの詳細を製品に入力するように頼みません。そのような手順では、すべての売り手がプラットフォームで自分の車を売ろうとする複雑で非常に詳細なフォームに記入する必要があります。うまくいきません。 しかし、それでも、私の課題は、検索で必要なだけ詳細になり、良い一致をすることです。したがって、私が考えているのは、潜在的な売り手のグループを絞り込むために、おそらく誰にでも関係のある製品の主要な側面をマッピングすることです。 次のステップは「洗練された検索」です。あまりにも詳細なフォームを作成しないようにするために、買い手と売り手に仕様のフリーテキストを書くよう依頼することができます。そして、いくつかの単語照合アルゴリズムを使用して、可能な一致を見つけます。売り手は買い手が必要とするものを「推測」できないため、これは問題の適切な解決策ではないことを理解していますが。しかし、私を近づけるかもしれません。 提案された重み付け基準は素晴らしいです。これにより、売り手が買い手のニーズと一致するレベルを定量化できます。ただし、各属性の重要性はクライアントごとに異なるため、スケーリング部分は問題になる可能性があります。何らかのパターン認識を使用するか、各購入者に各属性の重要度を入力するように依頼することを考えています。

3
Amazon RedShiftは〜1XTBデータのHadoopを置き換えますか?
Hadoopとそのエコシステムを取り巻く多くの誇大宣伝があります。しかし、実際には、多くのデータセットがテラバイトの範囲にある場合、Hadoopクラスターの構築に時間と労力を費やすのではなく、大きなデータセットのクエリにAmazon RedShiftを使用する方が合理的ではありませんか? また、セットアップの複雑さ、コスト、パフォーマンスに関して、Amazon RedshiftはHadoopと比較してどうですか?

9
学習しやすい機械学習アプリケーションにはどのようなものがありますか?[閉まっている]
閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集して事実と引用で答えられるように質問を更新してください。 5年前に閉鎖されました。 機械学習全般に慣れていないので、遊んでみて、その可能性を確認したいと思います。 インストールから意味のある結果を生成するまでの時間を最短にするアプリケーションをお勧めします。 また、一般的な機械学習のテーマに関する適切な入門資料についての推奨事項を歓迎します。

2
StormとHadoop間のトレードオフ(MapReduce)
データ処理のためにHadoopクラスタでStormとMapReduceを選択する際のトレードオフについて、誰かが親切に教えてもらえますか?もちろん、明白なものは別として、Hadoop(HadoopクラスターのMapReduceを介した処理)はバッチ処理システムであり、Stormはリアルタイム処理システムです。 私はHadoop Eco Systemを少し使用しましたが、Stormは使用していません。たくさんのプレゼンテーションや記事を調べた後、満足できる包括的な答えを見つけることができませんでした。 注:ここでのトレードオフという用語は、同様のものと比較することを意図したものではありません。バッチ処理システムにない結果をリアルタイムで取得することの結果を表すことを目的としています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.