データサイエンス machine-learning

4

金融市場のパターンを認識するのに最適な機械学習モデルまたはディープラーニングモデル（教師あり学習が必要）はどれですか。金融市場でのパターン認識の意味：次の画像は、サンプルパターン（つまり、頭と肩）がどのように見えるかを示しています。画像1：次の画像は、実際のチャートイベントで実際にどのように形成されるかを示しています。画像2：私がやろうとしていることは、画像1と同様のパターンは頭と肩のパターンとして定義できますが、グラフ（価格チャート）では画像1ほど明確に形成されません。画像2は頭と肩のサンプルですチャート（価格チャート）のパターンフォーム。画像2にあるように、通常のアルゴリズムまたは分析では頭と肩のパターンとして識別できません（多くの肩と頭に誤解を招く可能性が高い構造と多くの高低があるため）その他の構造）。同様の（画像2のような）パターンが形成されたときに、頭と肩のパターンを認識するようにマシンをトレーニングすることを期待しています。お時間をいただきありがとうございます。間違った方向に進んでいる場合はお知らせください。私は機械学習の初心者の知識しか持っていません。

8 machine-learning deep-learning

1

見込み客の採点モデルのアイデア

クライアントに転向する可能性が高い見込み顧客（企業）を特定するためのモデルについて考えなければならないのですが、どのようなモデルが有用かについてのアドバイスを探しています。私は私の知る限り、ある必要がありますデータベースは、（私はそれらをまだ持っていない）list of current clients（換言すれば、converted prospectsその機能（）とsize、revenue、age、location、および、そのようなもの）list of prospects私はスコアに持っている（ということ）とその機能。ただし、以前は見込み客でしたが、クライアントへの変換に失敗した企業のリストはありません（もしそうだった場合は、ランダムフォレストを選択できたと思います。もちろん、ランダムフォレストを使用しますが、2つのデータベースの結合でランダムフォレストを実行し、クライアントをconverted見込み顧客として扱うことは悪い考えだと思いますnon-converted...）ですから、見込み客のリストから、既存のクライアントのように見える人を見つける必要があります。それにはどのようなモデルを使用できますか？（「クライアントの価値を評価し、これを同様の見込み客に適用する」、「各見込み客が廃業する可能性を評価する」などの点についても検討して、スコアリングの価値をさらに絞り込みますが、それはちょっと私の質問の範囲外です）。ありがとう

8 machine-learning predictive-modeling supervised-learning unsupervised-learning

1

データセットの密度をどのように計算しますか？

協調フィルタリングについて詳しく調べています。本当に興味深い論文の1つは、「協調フィルタリングアルゴリズムの比較研究」http://arxiv.org/pdf/1205.3193.pdfです。使用するCFアルゴリズムを選択するために、論文ではデータセットの密度を参照しています。データセットの密度を実際に計算する方法については説明していません。それで、上記の論文の文脈では、誰でも私にデータセットの密度を計算する方法を説明するのを手伝ってくれる？この紙は、1〜5％の範囲の密度を定期的に参照しています。

8 machine-learning dataset recommender-system

3

データマイニングと機械学習プロセスを接続する方法

スクレイピングやAPIを介してデータを収集するデータマイニングサービスをGoogle Goで作成したいと考えています。ただし、Goには優れたMLサポートがないため、PythonでMLを実行したいと考えています。 Webの背景があるので、両方のサービスをRPCのようなものに接続しますが、これはデータサイエンスの一般的な問題であると思うので、もっと良い解決策があると思います。たとえば、ほとんどの（Web）プロトコルには以下がありません。プロセス間のバッファリング複数インスタンスでのクラスタリングでは、データサイエンティストはさまざまな言語/プロセスを接続するために何（ライブラリの種類）を使用するのでしょうか。ボードー

8 machine-learning data-mining

4

役職の類似性

IT分野の役職間のメトリックを定義しようとしています。このため、同じ役職で一緒に表示されない役職の単語間のいくつかのメトリックが必要です。たとえば、単語間のメトリックシニア、プライマリ、リード、ヘッド、VP、ディレクター、スタッフ、プリンシパル、チーフ、または言葉アナリスト、エキスパート、モデラー、研究者、科学者、開発者、エンジニア、建築家。どのように私はそれらの距離でそのような可能な単語をすべて得ることができますか？

8 machine-learning dataset

1

バイアス分散のトレードオフと最適化の手段に関する質問

したがって、たとえば、高いバイアスまたは高い分散によって提示される問題に直面したときに、構築しようとしているモデルをどのように最適化できるかを考えていました。もちろん、正規化パラメーターを使用して満足のいく結果を得ることができますが、正規化に依存せずにこれを実行できるかどうか疑問に思っていました。 bがモデルのバイアス推定量であり、その分散のvである場合、b * vを最小化することは理にかなっていますか？

7 machine-learning variance bias

3

なぜロジスティック関数は2ではなくeを使用するのですか？

シグモイド関数は、機械学習のアクティベーション関数として使用できます。 S（x ）=11 +e− x=eバツeバツ+ 1。S(x)=11+e−x=exex+1.{\displaystyle S(x)={\frac {1}{1+e^{-x}}}={\frac {e^{x}}{e^{x}+1}}.} eを2に置き換えると def sigmoid2(z): return 1/(1+2**(-z)) x = np.arange(-9,9,dtype=float) y = sigmoid2(x) plt.scatter(x,y) プロットは似ています。なぜロジスティック関数は2ではなく使用するのですか？eee

7 machine-learning deep-learning

2

左に歪んだ分布を持つことの欠点は何ですか？

現在、分類の問題に取り組んでおり、数値列が歪んでいます。左歪度を修正するためにログ変換またはボックスコックス変換を行うことを人々が推奨している多くの投稿を読んだことがあります。それで、歪度をそのままにしてモデルの構築を続行するとどうなるのだろうと思いましたか。分類問題（knn、ロジスティック回帰）の歪度を修正する利点はありますか？

7 machine-learning python

1

他のハイパーパラメーターと同じように、最適なPCA kパラメーターを見つけようとしても大丈夫ですか？

主成分分析（PCA）は、n次元データをk次元データに変換して、機械学習の速度を上げるために使用されます。PCAが適用された後、元のデータセットの分散が結果のデータセットにどれだけ残っているかを確認できます。一般的な目標は、90％と99％の間の差異を維持することです。私の質問は、kパラメータの異なる値（結果のデータセットの次元のサイズ）を試してから、選択したのと同じ方法で、いくつかの相互検証データセットに対して結果のモデルの結果を確認することをお勧めします。正則化ラムダやしきい値のような他のハイパーパラメーターの良い値は？

7 machine-learning pca hyperparameter

4

tanhの入力に係数を乗算することにより、消失勾配問題を解決できますか？

私の理解では、各活性化関数の勾配が1未満のときにニューラルネットワークをトレーニングすると消失勾配問題が発生し、補正が多くの層で逆伝播すると、これらの勾配の積は非常に小さくなります。整流器活性化関数のような他の解決策があることを知っていますが、私の質問は、よく使用されるtanh関数のバリエーションを単純に使用できない理由です。アクティベーション機能が次の形式の場合 tanh(nx)tanh⁡(nx)\tanh(n x) 次に、可能な最大勾配は nnn。したがって、n>1n>1n > 1勾配の積が必ず 0になるケースはなくなりました。このようなアクティベーション機能が失敗する理由は何かありますか？

7 machine-learning neural-network deep-learning activation-function

2

検証とテストとトレーニングの精度。オーバーフィットを主張するために私はどちらを比較すべきですか？

こことインターネットでいくつかの回答を読みましたが、クロス検証は、モデルが一般化するかどうか、およびオーバーフィットについて一般化するかどうかを示すのに役立ちます。しかし、私は、モデルが過適合であるかどうかを確認するために、テスト/トレーニング/検証の間でどの2つの精度/エラーを比較すべきか混乱していますか？例えば：データを70％のトレーニングと30％のテストに分割します。 10倍の相互検証を実行すると、平均/平均をとることができる10の精度が得られます。これはどういう意味validation accuracyですか？その後、30％のテストデータでモデルをテストし、を取得しTest Accuracyます。この場合、何になりますtraining accuracyか？また、モデルが過適合であるかどうかを確認するには、どの2つの精度を比較する必要がありますか？

7 machine-learning cross-validation accuracy overfitting

1

多言語感情コーパスについて

各記事にポジティブ、ニュートラル、ネガティブのラベルが付けられた複数の言語のニュース記事（機械学習実験では1言語あたり100k以下）の感情コーパスをコンパイルしたいと考えています。私は高低を検索しましたが、このようなものはありませんでした。私はすでに各言語のニュース記事を持っています。コミュニティへの私の質問は、これを可能な限り正確に達成するにはどうすればよいですか？私は最初にMechanical Turkを見ていた。そこでは、各記事に手動でラベルを付けるために人々を雇うことができる。そして、これは前進する最善の方法かもしれませんが、高価です。次に、感情分析を行う既存の人気のあるすべてのライブラリ（既にMechanical Turkを使用しているものもある）（AFINN、Bing Liu、MPQA、VADER、TextBlobなど）について考えました。センチメントのアイデア私の現在のアイデアは、これらのライブラリのいくつか（たとえば、AFINN、次にTextBlob、次にVADER）で各ニュース記事を実行し、3つのライブラリすべてがコーパスに受け入れられているにもかかわらず、満場一致でポジティブ、ネガティブ、ニュートラルを示す記事についてです。それはかなり強力で合理的な検証プロセスのように見えますか？言語のアイデア次の問題は言語自体に関係しています。上記の3 libパイプラインは英語で問題なく実行できます。ただし、これらのライブラリは他の多くの言語（スペイン語、ドイツ語、中国語、アラビア語、フランス語、ポルトガル語など）を均一にサポートしていません。それらを英語に変換し、上記の既存の3 libパイプラインを介して送信するためのAPI。多くの記事のセマンティクスが失われることは確かです。しかし、私の期待は、十分な記事が十分に翻訳され、一部が3 libパイプラインを通過することです。このトリプルブラインド感情パイプを使用してニュース記事を翻訳および送信すると、10万のコーパスが必要になり、1万の結果が得られる可能性があることを知っています。私はそれで大丈夫です。精度と価格が私の懸念事項です。より多くのデータを簡単に取得できます。ニュース記事の感情コーパスを達成するためのより正確な方法は何ですか。このようなコーパスを組み立てるための既存のベストプラクティスはありますか？

7 machine-learning python nlp dataset sentiment-analysis

1

入力データをゼロ平均に正規化し、単位分散が適切でない、または有益でない場合、どのような状況がありますか？

機械学習で、入力データの平均をゼロ平均、単位分散に何度も正規化しました。これは常に実行するのに良い方法ですか、それとも適切でない、または有益でない場合がありますか？

7 machine-learning feature-scaling normalization

2

画像のコピーを識別するためのニューラルネットワークアーキテクチャ

大規模な画像コレクションがあり、コレクションから他の画像をコピーしているように見える、そのコレクション内の画像を特定したいと考えています。一致として分類したい画像ペアの種類を理解するために、次の例を検討してください。私はおよそ.25Mの一致する画像のペアを手で分類しました。次に、それらの手でラベル付けされた一致を使用してニューラルネットワークモデルをトレーニングします。どのアーキテクチャがこのタスクに理想的に適しているかはわかりません。元々は同様のタスクに使用されているので、シャムネットワークが適切かもしれないと思っていましたが、これらの分類子からの出力は、同じオブジェクトの異なる形を見つけるのに理想的です（これは私が望むものではありません）。同じ形の（それが私が欲しいものです）。私が準備したトレーニングデータを前提として、画像の特定に理想的な論文やアーキテクチャを推奨できる人がいれば、私はあなたが提供できるあらゆる洞察に非常に感謝します。

7 machine-learning neural-network convnet image-classification computer-vision

1

各データファイルの長さが異なる場合、入力フィーチャの形状をどのように決定しますか？

助けるために私はの利点と欠点を理解しdecision trees、KNN、Neural Networks、私は2クラス（中分類という単純な分類器構築したいBird SoundとはNon-Bird Sound）上記の3つの方法のすべてを使用します。そのため、kaggleからサウンドデータセットをダウンロードし、pysoundfileをサウンドファイルを読み取るためのモジュールとして探索していました。したがって、次のスタブ： data, samplerate = sf.read('xc94652.flac') numpy ndarrayを返します。shapeデータの各ファイル、いくつかのビーイングに応じて変化(8637686,)し、いくつかのビーイング(3227894,)。各ファイルは長さが異なるため、ファイルの形状はdataファイルごとに異なります。いくつかの方法があります、私は形をdata等しくすることができますか？すべてのファイルからデータセットの形状を最小の長さにすることを計画していました。しかし、それは間違いなくサウンドファイルデータセットを正当化しません。多くの機能が失われる可能性があり、最終的にモデルの精度が失われる可能性があります。

7 machine-learning python neural-network decision-trees k-nn

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」