タグ付けされた質問 「machine-learning」

「経験とともに自動的に改善するコンピューターシステム」を構築する方法と原則。

3
データサイエンスプロジェクトのアイデア[終了]
閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集して事実と引用で答えられるように質問を更新してください。 5年前に閉鎖されました。 これがこの質問をするのにふさわしい場所であるかどうかはわかりませんが、データサイエンスに専念するコミュニティが私の意見では最も適切な場所であるはずです。 データサイエンスと機械学習を始めたばかりです。私は8か月ほど作業できる長期プロジェクトのアイデアを探しています。 データサイエンスと機械学習の組み合わせは素晴らしいでしょう。 コアの概念を理解し、同時にそれらを実装するのに役立つほど大きなプロジェクトは非常に有益です。

7
高次元データを視覚化する目的は?
T-SNE、isomap、PCA、教師付きPCAなど、高次元のデータセットを視覚化するための多くの手法があります。また、データを2Dまたは3D空間に投影する動作を行っているため、 「。これらの埋め込み(多様体学習)メソッドのいくつかをここで説明します。 しかし、この「きれいな絵」は実際に意味があるのでしょうか?この埋め込まれた空間を視覚化することで、誰かがどのような洞察をつかむことができますか? この埋め込まれた空間への投影は通常無意味だからです。たとえば、PCAによって生成された主成分にデータを投影する場合、それらの主成分(eiganvectors)はデータセット内のフィーチャに対応しません。それらは独自の機能スペースです。 同様に、t-SNEは、KLの発散を最小限に抑えるためにアイテムが互いに近くにあるスペースにデータを投影します。これはもはや元の機能空間ではありません。(間違っている場合は修正してください。ただし、分類を支援するためにt-SNEを使用するMLコミュニティの大きな努力はないと思います。ただし、これはデータの視覚化とは異なる問題です。) なぜこれらの視覚化のいくつかについて人々がそんなに大したことをするのか、私は非常に大きく混乱しています。

6
月と時間などの機能をカテゴリまたは数値としてエンコードしますか?
機械学習モデルで、月や時間などの機能を係数または数値としてエンコードする方が良いでしょうか? 一方で、時間は順方向に進行するプロセスであるため(5か月後に6か月が経過するため)、数値エンコードは合理的であると感じますが、一方で、周期的性質のためにカテゴリーエンコードがより合理的であると思います年と日(12番目の月の後に最初の月が続きます)。 これに一般的な解決策や慣習はありますか?

2
GridSearchの出力を使用する方法は?
現在、PythonとScikitの学習を分類の目的で使用しています。GridSearchを読んでいると、推定器のパラメーターを最適化して最良の結果を得るのに最適な方法だと思いました。 私の方法論はこれです: データをトレーニング/テストに分割します。 GridSearchと5Fold Cross検証を使用して、推定器(ランダムフォレスト、勾配ブースト、SVCなど)をトレーニングおよびテストし、最適なハイパーパラメーターの組み合わせで最適な推定器を取得します。 次に、テストセットを使用して分類を予測し、実際のクラスラベルと比較して、Precision、Recall、FMeasure、Matthews Correlation Coefficientなどの各推定器のメトリックを計算します。 奇妙な振る舞いを見たのはこの段階であり、どうすればいいかわかりません。GridSearchから.best_estimator_を取得し、これをグリッド検索からの「最適な」出力として使用し、この推定器を使用して予測を実行しますか?これを行うと、すべてのトレーニングデータをトレーニングしてテストセットでテストする場合よりも、ステージ3メトリックが通常はるかに低いことがわかります。または、出力GridSearchCVオブジェクトを新しい推定器として単純に取得しますか?これを行うと、ステージ3メトリックのスコアが向上しますが、目的の分類子(ランダムフォレストなど)の代わりにGridSearchCVオブジェクトを使用すると奇妙に思えます... 編集: 私の質問は、返されたGridSearchCVオブジェクトと.best_estimator_属性の違いは何ですか?これらのどれを使用して、さらにメトリックを計算する必要がありますか?この出力を通常の分類子のように(たとえば、predictを使用して)使用できますか、またはどのように使用する必要がありますか?

3
入力データの機能変換
私はこのOTTO Kaggleチャレンジのソリューションについて読んでいましたが、そもそもソリューションは入力データXにいくつかの変換、たとえばLog(X + 1)、sqrt(X + 3/8)などを使用しているようです。どの種類の変換をさまざまな分類子に適用するかに関する一般的なガイドラインは? 平均値と最小値と正規化の概念を理解しています。ただし、上記の変換では、データのダイナミックレンジを圧縮するためにLogとSqrtが使用されていると思います。また、x軸のシフトはデータを再センタリングするためのものです。ただし、著者は、異なる分類器に入力する場合、同じ入力Xに対して異なる正規化方法を使用することを選択します。何か案は?

6
たたみ込みニューラルネットワークが機能する理由
なぜ畳み込みニューラルネットワークがまだよく理解されていないのかと言う人をよく耳にします。畳み込みニューラルネットワークが、層を上るにつれて常に洗練された機能を学習することになります。それらがそのような機能のスタックを作成した原因は何ですか?これは他のタイプのディープニューラルネットワークにも当てはまりますか?


2
PASCAL VOC Challengeの検出タスクのmAPを計算する方法は?
Pascal VOCリーダーボードの検出タスクのmAP(平均精度)の計算方法は?http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 そこに-11ページで:http : //homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf 平均精度(AP)。VOC2007チャレンジでは、分類された検出と検出の両方を評価するために、補間された平均精度(Salton and Mcgill 1986)が使用されました。特定のタスクおよびクラスについて、精度/リコール曲線はメソッドのランク付けされた出力から計算されます。リコールは、特定のランクよりも上位にランク付けされたすべての肯定的な例の割合として定義されます。精度は、そのランクより上のすべての例のうち、ポジティブクラスからの割合です。APは精度/リコール曲線の形状を要約し、11個の等間隔のリコールレベル[0,0.1、...、1]のセットでの平均精度として定義されます。 AP = 1/11 ∑ r∈{0,0.1,...,1} pinterp(r) 各リコールレベルrの精度は、対応するリコールがrを超えるメソッドに対して測定された最大精度を取得することにより補間されますpinterp(r) = max p(r˜)。ここで、p(r〜)はリコール〜rで測定された精度です。 地図について:http://0agr.ru/wiki/index.php/Precision_and_Recall#Average_Precision それは次のことを意味します: PrecisionとRecallを計算します。 A)多くの異なるものIoU について、> {0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1}真/偽の正/負の値を計算します ここでTrue positive = Number_of_detection with IoU > {0, 0.1,..., 1}、https://datascience.stackexchange.com/a/16813/37736で述べたように、次に計算します: Precision = True positive / …


5
決定木アルゴリズムは線形または非線形ですか
最近、私の友人に、ディシジョンツリーアルゴリズムが線形アルゴリズムであるか非線形アルゴリズムであるかがインタビューで尋ねられました。この質問への回答を探しましたが、満足のいく説明が見つかりませんでした。誰でもこの質問の解決策に答えて説明できますか?また、非線形機械学習アルゴリズムの他の例は何ですか?

4
勾配降下は常に最適に収束しますか?
勾配降下が最小に収束しないシナリオがあるかどうか疑問に思っています。 勾配降下が常にグローバルな最適値に収束することが保証されているわけではないことを認識しています。また、たとえば、ステップサイズが大きすぎると、最適値から逸脱する可能性があることも認識しています。しかし、ある最適から逸脱すると、最終的には別の最適に移行するように思えます。 したがって、勾配降下はローカルまたはグローバル最適に収束することが保証されます。そうですか?そうでない場合、大まかな反例を示してください。


3
データを分割する前後のStandardScaler
を使用して読んでいたときStandardScaler、推奨事項のほとんどは、データを電車/テストStandardScaler に分割する前に使用する必要があると言っていましたが、オンラインで投稿されたコードの一部をチェックするときに(sklearnを使用して)2つの主要な用途がありました。 1- StandardScalerすべてのデータで使用。例えば from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_fit = sc.fit(X) X_std = X_fit.transform(X) または from sklearn.preprocessing import StandardScaler sc = StandardScaler() X = sc.fit(X) X = sc.transform(X) または単に from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_std = sc.fit_transform(X) 2- StandardScaler分割データで使用。 from sklearn.preprocessing import StandardScaler sc = …

4
ケラスモデルの精度、F1、精度、再現率を取得する方法は?
バイナリKerasClassifierモデルの精度、再現率、F1スコアを計算したいのですが、解決策が見つかりません。 これが私の実際のコードです: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', activation='relu')) model.add(Dense(1, kernel_initializer='normal', activation='sigmoid')) # Compile model model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) tensorboard = TensorBoard(log_dir="logs/{}".format(time.time())) time_callback = TimeHistory() # Fit the model history …

3
OrdinalEncoderとLabelEncoderの違い
MLに関する本を読んだ後、scikit-learn learnの公式ドキュメントを調べていたところ、次のことに遭遇しました。 ドキュメンテーションではそれについて説明されていsklearn.preprocessing.OrdinalEncoder()ますが、本ではそれについて説明さsklearn.preprocessing.LabelEncoder()れていました。誰かが私に2つの違いを教えてくださいませんか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.