2億ポイントのPoint in Polygon分析の最速のソリューションを探しています[終了]
次の形式の2億の観測値を含むCSVがあります。 id,x1,y1,x2,y2,day,color 1,"-105.4652334","39.2586939","-105.4321296","39.2236632","Monday","Black" 2,"-105.3224523","39.1323299","-105.4439944","39.3352235","Tuesday","Green" 3,"-104.4233452","39.0234355","-105.4643990","39.1223435","Wednesday","Blue" 座標セット(x1 / y1およびx2 / y2)ごとに、それが含まれる米国国勢調査地区または国勢調査ブロックを割り当てたい(国勢調査地区TIGERシェープファイルをここからダウンロードした:ftp : //ftp2.census.gov/ geo / tiger / TIGER2011 / TRACT / tl_2011_08_tract.zip)。そのため、観測ごとにポリゴンのポイント操作を2回行う必要があります。一致が非常に正確であることが重要です。 ソフトウェアを習得する時間を含め、これを行う最も速い方法は何ですか?48GBのメモリを搭載したコンピューターにアクセスできます-これが関連する制約になる場合があります。 いくつかのスレッドは、PostGISまたはSpatialiteの使用を推奨しています(Spatialiteは使いやすいようですが、PostGISと同じくらい効率的ですか?)。これらが最良のオプションである場合、空間インデックス(RTree?)を設定することが必須ですか?もしそうなら、どのようにそれを行うのでしょうか(例:国勢調査シェープファイルの使用)サンプルコード(またはサンプルコードへのポインター)を含む推奨事項に非常に感謝します。 このサイトを見つける前の最初の試みは、ArcGISを使用して、米国国勢調査ブロックのデータのサブサンプル(100,000ポイント)の空間結合(x1 / y1のみ)を行うことでした。プロセスを強制終了するまでに5時間以上かかりました。40時間未満の計算時間でデータセット全体に実装できるソリューションを期待しています。 以前に尋ねられた質問をおApびします-私は答えを一読しましたが、どのように推奨事項を実装するのか疑問に思っています。私はSQL、Python、Cを使用したことがなく、ArcGISを使用したことが一度もありません-私は完全な初心者です。