データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

4
クラスタリングする前にデータを標準化する必要はありますか?
クラスター化する前にデータを標準化する必要がありますか?以下からの例ではscikit learnDBSCANについて、ここで彼らはラインで次の操作を行います。 X = StandardScaler().fit_transform(X) しかし、なぜそれが必要なのかわかりません。結局のところ、クラスタリングはデータの特定の分布を想定していません-それは教師なしの学習方法なので、その目的はデータを探索することです。 なぜデータを変換する必要があるのですか?

3
Kはエルボ法、BIC、分散の説明、およびシルエットを使用してKを選択するインコヒーレントな動作を意味します
K-meansで90個の特徴を持ついくつかのベクトルをクラスター化しようとしています。このアルゴリズムはクラスターの数を尋ねるので、いくつかの素晴らしい数学で選択を検証したいと思います。8〜10個のクラスターが必要です。機能はZスコアでスケーリングされています。 エルボ法と分散の説明 from scipy.spatial.distance import cdist, pdist from sklearn.cluster import KMeans K = range(1,50) KM = [KMeans(n_clusters=k).fit(dt_trans) for k in K] centroids = [k.cluster_centers_ for k in KM] D_k = [cdist(dt_trans, cent, 'euclidean') for cent in centroids] cIdx = [np.argmin(D,axis=1) for D in D_k] dist = [np.min(D,axis=1) for D in …

7
高次元データを視覚化する目的は?
T-SNE、isomap、PCA、教師付きPCAなど、高次元のデータセットを視覚化するための多くの手法があります。また、データを2Dまたは3D空間に投影する動作を行っているため、 「。これらの埋め込み(多様体学習)メソッドのいくつかをここで説明します。 しかし、この「きれいな絵」は実際に意味があるのでしょうか?この埋め込まれた空間を視覚化することで、誰かがどのような洞察をつかむことができますか? この埋め込まれた空間への投影は通常無意味だからです。たとえば、PCAによって生成された主成分にデータを投影する場合、それらの主成分(eiganvectors)はデータセット内のフィーチャに対応しません。それらは独自の機能スペースです。 同様に、t-SNEは、KLの発散を最小限に抑えるためにアイテムが互いに近くにあるスペースにデータを投影します。これはもはや元の機能空間ではありません。(間違っている場合は修正してください。ただし、分類を支援するためにt-SNEを使用するMLコミュニティの大きな努力はないと思います。ただし、これはデータの視覚化とは異なる問題です。) なぜこれらの視覚化のいくつかについて人々がそんなに大したことをするのか、私は非常に大きく混乱しています。


6
月と時間などの機能をカテゴリまたは数値としてエンコードしますか?
機械学習モデルで、月や時間などの機能を係数または数値としてエンコードする方が良いでしょうか? 一方で、時間は順方向に進行するプロセスであるため(5か月後に6か月が経過するため)、数値エンコードは合理的であると感じますが、一方で、周期的性質のためにカテゴリーエンコードがより合理的であると思います年と日(12番目の月の後に最初の月が続きます)。 これに一般的な解決策や慣習はありますか?

4
XGBoostはそれ自体で多重共線性を処理しますか?
現在、21個の機能(約150個の機能のリストから選択)を含むデータセットでXGBoostを使用しており、ワンホットコーディングして〜98個の機能を取得しています。これらの98個の機能のいくつかは、いくらか冗長です。たとえば、変数(機能)はBとしても表示されます。AAAおよびCBABA\frac{B}{A}。CACA\frac{C}{A} 私の質問は: Boosted Decision Treesは多重共線性をどのように(If?)処理しますか? 多重共線性の存在が処理されない場合、予測にどのように影響しますか? 私が理解していることから、モデルは複数のツリーを学習しており、最終的な予測は個々の予測の「加重和」のようなものに基づいています。したがって、これが正しければ、Boosted Decision Trees は変数間の相互依存関係を処理できるはずです。 また、関連するメモ-XGBoostの変数重要度オブジェクトはどのように機能しますか?

2
GridSearchの出力を使用する方法は?
現在、PythonとScikitの学習を分類の目的で使用しています。GridSearchを読んでいると、推定器のパラメーターを最適化して最良の結果を得るのに最適な方法だと思いました。 私の方法論はこれです: データをトレーニング/テストに分割します。 GridSearchと5Fold Cross検証を使用して、推定器(ランダムフォレスト、勾配ブースト、SVCなど)をトレーニングおよびテストし、最適なハイパーパラメーターの組み合わせで最適な推定器を取得します。 次に、テストセットを使用して分類を予測し、実際のクラスラベルと比較して、Precision、Recall、FMeasure、Matthews Correlation Coefficientなどの各推定器のメトリックを計算します。 奇妙な振る舞いを見たのはこの段階であり、どうすればいいかわかりません。GridSearchから.best_estimator_を取得し、これをグリッド検索からの「最適な」出力として使用し、この推定器を使用して予測を実行しますか?これを行うと、すべてのトレーニングデータをトレーニングしてテストセットでテストする場合よりも、ステージ3メトリックが通常はるかに低いことがわかります。または、出力GridSearchCVオブジェクトを新しい推定器として単純に取得しますか?これを行うと、ステージ3メトリックのスコアが向上しますが、目的の分類子(ランダムフォレストなど)の代わりにGridSearchCVオブジェクトを使用すると奇妙に思えます... 編集: 私の質問は、返されたGridSearchCVオブジェクトと.best_estimator_属性の違いは何ですか?これらのどれを使用して、さらにメトリックを計算する必要がありますか?この出力を通常の分類子のように(たとえば、predictを使用して)使用できますか、またはどのように使用する必要がありますか?


3
トランスフォーマーモデルの位置エンコーディングは何ですか?
私はMLを初めて使用するので、これが私の最初の質問です。私の質問が愚かであるとすみません。 私は紙を読んで理解しようとしています注意はあなたが必要なすべてであり、その中に写真があります: 位置エンコーディングが何であるかわかりません。いくつかのyoutubeビデオを聞いて、それは単語の意味と位置の両方を持つ埋め込みであり、sin(x)sin(x)sin(x)またはと関係があることがわかりましたcos(x)cos(x)cos(x) しかし、それが何であるのか、それがどの程度正確に行われているのか理解できませんでした。だから私はいくつかの助けのためにここにいます。前もって感謝します。

6
チーム内でJupyterノートブックを共有する
次の方法でデータサイエンスチームをサポートできるサーバーをセットアップしたいと思います。Jupyterノートブックの保存、バージョニング、共有、および実行の中心点になります。 いくつかの望ましいプロパティ: さまざまなユーザーがサーバーにアクセスし、自分または他のチームメンバーによって保存されたノートブックを開いて実行できます。ここで興味深い質問は、ユーザーXがユーザーYによって作成されたノートブックのセルを実行した場合の動作はどうなるかということです。ノートブックは変更すべきではないと思います。 ソリューションは自己ホスト型である必要があります。 ノートブックは、サーバー、Googleドライブ、またはself-hostedのowncloudインスタンスに保存する必要があります。 (ボーナス)ノートブックはgitバージョン管理下にあります(gitは自己ホストされる場合があります。GitHubまたはそのようなものにバインドすることはできません)。 JupyterHubとBinderを調べました。前者では、クロスユーザーアクセスを許可する方法がわかりませんでした。後者は、ノートブックのストレージとしてGitHubのみをサポートしているようです。 いずれかのソリューションの経験がありますか?

3
入力データの機能変換
私はこのOTTO Kaggleチャレンジのソリューションについて読んでいましたが、そもそもソリューションは入力データXにいくつかの変換、たとえばLog(X + 1)、sqrt(X + 3/8)などを使用しているようです。どの種類の変換をさまざまな分類子に適用するかに関する一般的なガイドラインは? 平均値と最小値と正規化の概念を理解しています。ただし、上記の変換では、データのダイナミックレンジを圧縮するためにLogとSqrtが使用されていると思います。また、x軸のシフトはデータを再センタリングするためのものです。ただし、著者は、異なる分類器に入力する場合、同じ入力Xに対して異なる正規化方法を使用することを選択します。何か案は?


6
たたみ込みニューラルネットワークが機能する理由
なぜ畳み込みニューラルネットワークがまだよく理解されていないのかと言う人をよく耳にします。畳み込みニューラルネットワークが、層を上るにつれて常に洗練された機能を学習することになります。それらがそのような機能のスタックを作成した原因は何ですか?これは他のタイプのディープニューラルネットワークにも当てはまりますか?

3
Word2Vecのより良い入力は何ですか?
これは、一般的なNLPの質問に似ています。Word2Vecを埋め込む単語をトレーニングするための適切な入力は何ですか?記事に属するすべての文は、コーパス内の別個の文書である必要がありますか?または、各記事はコーパス内のドキュメントである必要がありますか?これは、Pythonとgensimを使用した単なる例です。 文で分割されたコーパス: SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."], ["second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article."], ["second", "sentence", "of", "the", "second", "article."]] コーパスを記事ごとに分割: ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.", "second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article.", "second", …


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.