データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

2
Sparse_categorical_crossentropy vs categorical_crossentropy(keras、精度)
どちらが正確性のために優れていますか、それとも同じですか?もちろん、categorical_crossentropyを使用する場合は1つのホットエンコーディングを使用し、sparse_categorical_crossentropyを使用する場合は通常の整数としてエンコードします。また、一方が他方より優れているのはいつですか?

1
1つのホットベクトルを数値属性でスケーリングする必要があります
カテゴリ属性と数値属性の組み合わせを持つ場合、通常、カテゴリ属性を1つのホットベクトルに変換します。私の質問は、それらのベクトルをそのままにして、標準化/正規化を通じて数値属性をスケーリングするのですか、それとも数値属性とともに1つのホットベクトルをスケーリングするのですか?

4
ケラスモデルの精度、F1、精度、再現率を取得する方法は?
バイナリKerasClassifierモデルの精度、再現率、F1スコアを計算したいのですが、解決策が見つかりません。 これが私の実際のコードです: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', activation='relu')) model.add(Dense(1, kernel_initializer='normal', activation='sigmoid')) # Compile model model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) tensorboard = TensorBoard(log_dir="logs/{}".format(time.time())) time_callback = TimeHistory() # Fit the model history …

3
OrdinalEncoderとLabelEncoderの違い
MLに関する本を読んだ後、scikit-learn learnの公式ドキュメントを調べていたところ、次のことに遭遇しました。 ドキュメンテーションではそれについて説明されていsklearn.preprocessing.OrdinalEncoder()ますが、本ではそれについて説明さsklearn.preprocessing.LabelEncoder()れていました。誰かが私に2つの違いを教えてくださいませんか?

2
潜在的ディリクレ配分では、アルファおよびベータハイパーパラメーターは何に貢献しますか?
LDAには2つのハイパーパラメーターがあり、それらを調整すると、誘発されるトピックが変わります。 アルファおよびベータハイパーパラメーターはLDAにどのように貢献しますか? いずれかのハイパーパラメーターが増減すると、トピックはどのように変わりますか? なぜパラメーターだけでなくハイパーパラメーターなのですか?



3
未知の機能に対して機能エンジニアリングを実行する方法は?
私はkaggleコンテストに参加しています。データセットには約100個のフィーチャがあり、すべてが(実際にそれらが表すものに関して)不明です。基本的にそれらは単なる数字です。 これらの機能に対して多くの機能エンジニアリングが行われています。未知の機能に対してどのように機能エンジニアリングを実行できるのでしょうか?誰かがこれを理解するのを助けてもらえますか?また、未知の機能に対して機能エンジニアリングを実行する方法に関するヒントがありますか?

2
テキストの分類:異なる種類の機能の組み合わせ
私が取り組んでいる問題は、短いテキストを複数のクラスに分類することです。私の現在のアプローチは、tf-idf加重項頻度を使用し、単純な線形分類器(ロジスティック回帰)を学習することです。これはかなりうまく機能します(テストセットで約90%のマクロF-1、トレーニングセットで約100%)。大きな問題は、目に見えない単語/ n-gramです。 私は、他の機能、たとえば分布類似性(word2vecで計算)を使用して計算された固定サイズのベクトル、または例の他のカテゴリ機能を追加して、分類器を改善しようとしています。私の考えは、単語の袋からスパース入力フィーチャにフィーチャを追加するだけでした。ただし、これにより、テストおよびトレーニングセットのパフォーマンスが低下します。追加の機能自体は、テストセットで約80%のF-1を提供するため、不要ではありません。機能のスケーリングも役に立たなかった。私の現在の考えでは、この種の機能は(スパース)ワードオブワード機能とうまく混同されません。 質問は次のとおりです。追加機能が追加情報を提供すると仮定して、それらを組み込む最良の方法は何ですか?別々の分類子をトレーニングし、それらをある種のアンサンブル作業で組み合わせることができますか(これには、おそらく、異なる分類子の機能間の相互作用をキャプチャできないという欠点があります)。他に考慮すべき複雑なモデルはありますか?

3
元のデータセットで学習した機械学習モデルを使用して合成データセットを生成する方法は?
一般に、機械学習モデルはデータセットに基づいて構築されます。元のデータセットの特性を保持するような訓練された機械学習モデルを使用して合成データセットを生成する方法があるかどうかを知りたいですか? [元のデータ->機械学習モデルの構築-> mlモデルを使用して合成データを生成します.... !!!] 出来ますか ?可能であれば、関連するリソースを指定してください。

2
scikit-learnでSVCとLinearSVCの違いを説明できますか?
私は最近、一緒に仕事をすることを学び始め、sklearnこの奇妙な結果に出会ったばかりです。 使用digits可能なデータセットを使用して、sklearnさまざまなモデルと推定方法を試しました。 私はデータをサポートベクトルマシンモデルをテストしたとき、私は2つの異なるのクラスがありますがわかったsklearn:SVM分類のためSVCとLinearSVC、元の用途1-に対する-1のアプローチおよび他の用途の一に対して、残りのアプローチは。 結果にどのような影響があるのか​​わかりませんでしたので、両方試してみました。モンテカルロスタイルの推定を行い、両方のモデルを500回実行しました。そのたびに、サンプルをランダムに60%のトレーニングと40%のテストに分割し、テストセットで予測の誤差を計算しました。 通常のSVC推定器は次のエラーのヒストグラムを生成しました。 一方、線形SVC推定器は次のヒストグラムを生成しました。 このような大きな違いを説明できるものは何でしょうか?ほとんどの場合、線形モデルの精度がこれほど高いのはなぜですか? そして、それに関連して、結果に著しい分極化を引き起こす原因は何ですか?1に近い精度または0に近い精度のいずれかで、間には何もありません。 比較のために、決定木分類では、約.85の精度ではるかに正規分布したエラー率が生成されました。
19 svm  scikit-learn 

3
複雑なレーダーチャートを作成するにはどうすればよいですか?
そのため、次のようなプレイヤープロファイルレーダーチャートを作成します。 各変数のスケールが異なるだけでなく、「廃棄された」統計など、実際にはあまり意味のない統計の逆スケールも必要です。 各統計の可変スケールの1つのソリューションは、ベンチマークを設定し、100のスケールでスコアを計算することです。 しかし、実際の数字をチャートに表示するにはどうすればよいですか?また、一部の統計について逆スケールを取得するにはどうすればよいですか。 現在、Excelで作業しています。このような複雑なグラフを作成するための最も強力なツールは何ですか?

3
初期キーワードに基づいて関連する単語のリストを増やす方法は?
最近、Googleスプレッドシートで利用できるクールな機能を見ました:「青」、「緑」、「黄」などの連続したセルにいくつかの関連キーワードを書くことから始め、同様のキーワードを自動的に生成します(この場合、他の色)。このYouTubeビデオで他の例を参照してください。 これを自分のプログラムで再現したいと思います。私はFreebaseを使用することを考えており、直感的には次のように機能します: Freebaseで指定された単語のリストを取得します。 彼らの「共通分母」を見つけ、これに基づいて距離メトリックを構築します。 元のキーワードとの「距離」に基づいて他の概念をランク付けします。 次に近い概念を表示します。 私はこの分野に詳しくないので、私の質問は次のとおりです。 これを行うためのより良い方法はありますか? 各ステップで使用できるツールは何ですか?

4
単一のイベントが縦断データに影響を与える可能性を分析するには、どの統計モデルを使用する必要がありますか
特定のイベントがいくつかの縦断データに影響を与える可能性を分析するために使用する式、方法、またはモデルを見つけようとしています。Googleで何を検索すればよいかわかりません。 シナリオの例を次に示します。 毎日平均100人のウォークイン顧客がいるビジネスを所有しているイメージ。ある日、あなたは毎日あなたの店に来るウォークイン客の数を増やしたいと決めたので、あなたは店の外で狂気のスタントを引いて注意を引きます。来週には、1日平均125人の顧客がいます。 次の数か月間、あなたは再びビジネスを獲得し、おそらくそれをもう少し長く維持したいと決めたので、他のランダムなことを試して、より多くの顧客を獲得します。残念ながら、あなたは最高のマーケティング担当者ではなく、あなたの戦術のいくつかはほとんどまたはまったく効果がなく、他のものはマイナスの影響さえ持っています。 個々のイベントがウォークイン顧客の数にプラスまたはマイナスの影響を与える可能性を判断するために、どのような方法論を使用できますか?相関関係は必ずしも因果関係とは限りませんが、特定のイベント後のクライアントのビジネスにおける日々の歩行の増加または減少の可能性を判断するためにどのような方法を使用できますか? ウォークイン顧客の数を増やしようとする試みの間に相関関係があるかどうかを分析することに興味はありませんが、他のすべてとは独立した単一のイベントが影響を与えたかどうかは分析しません。 この例はかなり不自然で単純化されているため、私が使用している実際のデータについて簡単に説明します。 特定のマーケティング代理店が新しいコンテンツを公開したり、ソーシャルメディアキャンペーンを実行したりする際に、クライアントのウェブサイトに与える影響を特定しようとしています。各クライアントには、5ページから100万をはるかに超えるサイズのWebサイトがあります。過去5年間にわたって、各代理店は、クライアントごとに、行われた作業の種類、影響を受けたWebサイト上のWebページの数、費やされた時間数など、すべての作業に注釈を付けました。 データウェアハウスにアセンブルした(スター/スノーフレークスキーマの束に配置した)上記のデータを使用して、1つの作業(時間内の1つのイベント)が影響を与えた可能性を判断する必要があります特定の作業によって影響を受ける、すべてまたはすべてのページに到達するトラフィック。Webサイトにある40種類のコンテンツのモデルを作成しました。これらのモデルは、そのコンテンツタイプのページが発売日から現在までに経験する可能性のある典型的なトラフィックパターンを説明しています。適切なモデルに関連して正規化された、特定の作業の結果として特定のページが受信した増加または減少した訪問者の最高数と最低数を判断する必要があります。 私は基本的なデータ分析(線形および重回帰、相関など)の経験がありますが、この問題を解決するためのアプローチ方法に困惑しています。過去に私は通常、特定の軸について複数の測定値を使用してデータを分析しました(たとえば、温度対渇き対動物、および動物全体で温帯の増加に伴う渇きへの影響を決定しました)、私は上記の影響を分析しようとしています非線形であるが予測可能な(または少なくともモデル化可能な)縦断的データセットのある時点での単一イベントの 私は困惑しています:( ヘルプ、ヒント、ポインタ、推奨事項、または指示は非常に役立ち、私は永遠に感謝します!

2
ReLUがアクティベーション機能として使用されるのはなぜですか?
アクティベーション関数はw * x + b、ニューラルネットワークのタイプの線形出力に非線形性を導入するために使用されます。 シグモイドのような活性化機能について、私は直感的に理解することができます。 バックプロパゲーション中に死んだニューロンを回避するReLUの利点を理解しています。しかし、出力が線形の場合にReLUがアクティベーション関数として使用される理由を理解できませんか? アクティベーション関数であることのすべてのポイントは、非線形性を導入しない場合、無効になりませんか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.