Open Dataの配信に最適なデータ形式はどれですか?


15

オープンデータの配信を検討する場合、さまざまなデータ形式(パフォーマンス、ファイルサイズなど)の長所と短所は何ですか?

私たちの組織は、データをオープンデータとして公開したいと考えています。ただし、使用するデータ形式について明確な考えはありません。もちろん、データ形式が「オープン」であればあるほど、使いやすくなります。

以下のタイプを考慮した場合、どのデータ形式が最も「オープン」であり、したがってオープンデータの配布に最も有用ですか?

  • ラスターデータ(考えている:GeoTIFF、Erdas IMGを想像しますか?)
  • ベクターデータ(考えているのは、GML、CSV、ESRI Shapefile、DXF?)
  • 表形式データ(私は考えています:CSV?)
  • 3Dデータ(考えているのはCityGML?)
  • 3Dポイントの可能性/ LIDAR(私は考えています:LAS?)
  • ここで何かを忘れていますか?

また、オープンデータ形式に関するドキュメントがある場合は、共有したいと思います。


2
ベクトルについては、ジオイソンと
kml-ノイハウザー

1
このリンクを見ましたか?gis.stackexchange.com/questions/61744/...

4
データ交換形式とデータストレージ形式を区別する必要があります。たとえば、geijsonは優れたデータ交換形式ですが、データストレージ形式としては不向きです。私はあなたがデータを配布するためのフォーマット(すなわちデータ交換)だけに関心があると仮定しています。あれは正しいですか?
Devdatta Tengshe

@DevdattaTengshe:いいね!現時点では、最も便利な交換形式でデータを配布することを目的としています。
マークヴェルシューア

フィードバックをありがとう。また、使用するファイルの種類とファイルサイズに関するいくつかのヒントは非常に役立ちます。
マークヴェルシューア

回答:


5

ウィーン市のオープンデータイニシアチブ(http://data.wien.gv.at)は、Geoserverを使用して、Geoserver WMSおよびWFSサービスを介してラスターおよびベクタージオデータへのアクセスを提供します。これには多くの利点があります。ユーザーは、オフラインで使用するためにさまざまな形式(geogson、KML、Zipシェープファイルなど)でデータをダウンロードしたり、オンラインマップまたはGISプロジェクトに埋め込んでライブでサービスを使用したりできます。


これがここで行うことです。maps.gcc.tas.gov.au / data 非空間テーブルにもGeoServerを使用できない理由はありません。
アレックスリース

5

表形式のcsvの場合。Excelはせいぜい複雑すぎて、最悪の場合はまったくアクセスできません。アクセスにはアクセスできず、PDFは面倒です。

地理空間でgeojsonを使用する場合、テキストは十分にサポートされており、他の実行可能な形式(シェープファイル)だけが持つ技術的な制限はありません。また、非常に正当な理由がない限り、WGS84である必要があります。ほとんどのユーザーは別の状態にあり、状態プレーンを必要としないことに注意してください。


5

連続/配列データ(ラスター)のNetCDFは非常に好きです。NetCDFの長所は次のとおりです。

  • NetCDFは自己記述型である(つまり、ファイルヘッダーを介してデータ定義を利用できる)ため、セカンダリメタデータファイルを提供する必要はありません。
  • NetCDF4では、n次元データを保存できます(ディスク上のHDF5データ形式を使用します。これは、OSが処理できる最大のファイルを許可するため、ボーナスです)。これには、合理的な圧縮とデータへの高速アクセスが伴います。NetCDF3はn次元のデータをサポートしておらず、32ビットシステムで約2GBのファイルサイズ制限があることに注意してください。
  • NetCDFはオープン形式であるため、一般的なライブラリを介してデータにアクセスすることも一般に問題になりません。たとえば、pythonでは、scipyからデータのスライスを読み込むのに十分簡単です。
from scipy.io import netcdf
f = netcdf.netcdf_file('source.nc')
print(nc.dimensions) #take a look at the dimensions of the data
print(nc.variables)  #A dictionary containing all the variables
nc.variables["some_data"].dimensions #The dimensions this variable is in, e.g. lat, lon
out_array = nc.variables["some_data"].data
f.close() #and we're done

NetCDF4の唯一の欠点は、ArcGISやQGISのような標準のGISパッケージでサポートされていないことです(これを修正したいと心から願っています!)。

編集NetCDFをサポートする他のいくつかのパッケージ

NetCDFをサポートするいくつかの標準プログラミング言語(公平ではありますが、HDFを読み取れるものはすべてNetCDF4を読み取ることができます):

数学と統計のユーザーの場合:

特にGISの場合:

  • GDALがデータを変換します
  • 同様にFME
  • ArcGISはNetCDFをサポートしています(ただし、私の経験では最高レベルのサポートではありません)
  • 開発中のQGISプラグインがあります

NetCDFファイルをすばやく見たい場合は、NASAのクロスプラットフォームPanoplyを使用します。さらに興味がある場合は、UCAR Unidata にソフトウェアのリストがあります


NetCDFは恐ろしい選択であり、Python以外ではサポートされていません。サポートは良好かもしれませんが、tiffs、png、およびjpegは文字通りすべての言語でサポートされています。
カルバン

2
私は強く反対します。上記の応答を編集して、NetCDFをサポートするパッケージのクイックリストを表示しました。私の経験では、多次元科学データ(天文学や気象学など)に適した形式です。PNGとTIFFはラスターデータを配布するのに悪くありません。また、データの表示は確かに簡単ですが、大量の多次元データにうまく対応できません。科学データを配信するためにJPEGを使用しないください(ただし、マップを誰かに送信している場合は完全に機能します)。
om_henners

4

私は言うだろう:

  • ベクトルデータ用のシェープファイルまたはGML
  • 3Dモデルの.objファイル
  • 点群の.xyz(単純なCSV)
  • 表形式データのCSV
  • ラスターデータのGeoTIFF

これらの形式は、オープンソースソフトウェアで簡単に読み取ることができ、特定のアプリケーションに必要な他の形式に簡単に変換できます。

データをオープンにするための+1も!


2
ベクトルデータにシェープファイルとGMLを提案した理由を知りたいと思います。どちらもひどいフォーマットです。GMLの唯一の恩恵は、それがOGC形式であることです。
Devdatta Tengshe

1
シェープファイルは多くのアプリケーションで読み取り可能で、問題なく異なるものに変換できます。何を提案しますか?
til_b

3
シェープファイルを避けます。それらは機能しますが、重大な技術的制限があります。
ニックス

1
それでは、シェープファイルの技術的な制限がないことを何を提案しますか?
til_b

2
@til_b GeoTIFFは、「オープン」という観点からすてきな形式です。ただし、ストレージ(またはダウンロードとして提供)の場合、ファイルが巨大になる可能性があるため、ひどいです。ロスレス圧縮を提供するオープンなラスター形式をご存知ですか?
マークヴェルシューア

1

事実上、これとまったく同じ質問がopendata.SEで出てきました。地理空間データをリリースするのに最も便利な形式は何ですか?

そこで、自分の答えを引用する際にポリシーに違反しないことを願っています。

私の経験では、かなりの数の政府データセットから地図を作成しました。

ポイントデータの場合、「lat」列と「lon」列があるCSVが最適です。テキストエディタ、スプレッドシートなど、さまざまなツールでの作業が非常に簡単です。2つの欠点があります。

  1. GDALには.vrtコンパニオンファイルが必要です。
  2. latlon列の命名は完全に標準ではありません。多くのツールは、受け入れるものがかなり自由です。

線とポリゴンの場合、優先順位の降順:

  1. GeoJSON。操作が簡単で、テキストエディターまたはgeojson.ioで編集する機能は、検索/置換、いくつかの奇妙なオブジェクトの削除、または1つのファイルから別のファイルへのコピーと貼り付けが必要な場合にです。もう1つの利点は、非GIS開発者がそれを理解できることです。私が遭遇した唯一の問題は、誰かがPointではなくMultiPointとしてデータを提供するときです。
  2. シェープファイル。非常に広くサポートされていますが、2つの不便な点があります。まず、ファイルのコレクションであるため、.zipを渡して展開する必要があります。次に、フィールド名は10文字に制限されています。GISを使用していない一般的な人のために編集するのは困難です。
  3. KML / KMZ。多くの場合、これらには無関係な要素(スタイリング、アイコンなど)が多く、属性はミニHTMLテーブルとしてエンコードされる場合があり、操作が非常に困難です。少なくとも、Googleツールを使用して簡単に編集できます。

正直なところ、最良の答えはおそらく「すべて」です。みなさんにお願いし、データをCSV(ポイントの場合)、GeoJSON、zip圧縮されたShapefile、KMZでリリースします。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.