近年、特に衛星および気象データにおいて、私たちが収集する地理空間データの量は急速に増加しています。その結果、将来にわたってスムーズにスケールできるデータ形式とツールを確保することが重要になっています。
4月30日から5月2日にかけて、ユタ州ソルトレイクのスキーリゾートで開催されたCloud Native Geospatial(CNG)カンファレンスは、将来においてもデータを効果的に解析できるよう、巨大な空間データをクラウド環境で効率的に活用する方法を探ることを目的としています。
世界各地からCNGのメインプレイヤーが参加しており、Overture Map Foundation, Development Seeds, Radiant Earth, Open Geospatial Consortium, World Bank, NOAA, USGS, NASA, Google, Microsoft, Meta, NDVIA, Planet, DuckDB… など錚々たるメンバーが一堂に会していました。
私たちのパートナーである、Fused、CARTO、Safe Softwareもスポンサーやスピーカーとして参加していました。
今回の記事では、カンファレンスで特に注目されたトピックについて、解説します。
データ管理
◾️STAC(SpatioTemporal Asset Catalog)
STAC(時空間アセットカタログ)は、地理空間情報を記述するための共通言語です。
・データの場所(空間)
・いつ収集したのか(時間)
・データの種類(画像・ポイントデータなど)
これらの情報をJSONメタデータファイルでデータを整理し、簡単にインデックス作成や探索が可能になります。
STACを活用することで、データ提供者と利用者は、ローカルまたはクラウド上に保存されたデータに迅速かつ効率的にアクセスできます。
▷詳細はこちら:STAC公式サイト

◾️GeoParquet(ジオパーケット)
GeoParquetは、データサイエンティストに人気のあるParquet形式をベースに、地理空間データ型へのネイティブ対応を追加したものです。
・複数の地理データをひとつのファイルにまとめられる
・データの検索が早くなる
・ファイルのサイズが小さくなる
高性能、効率的な圧縮、汎用性の高さから、GeoParquetは地理空間データの保存において急速に普及しています。最近では、同一ファイル内での複数のジオメトリ対応、空間クエリ高速化のための空間インデックス機能、ジオメトリのエンコーディングの強化などの改善がなされています。
▷詳細はこちら:GeoParquet

◾️COG(Cloud Optimized GeoTIFF)
COGは、地理空間ラスターデータをクラウド上で効率的に扱うためのGeoTIFF形式です。
・ファイル全体を読み込まずに必要な部分だけに直接アクセスできる構造になっている
・HTTP Rangeリクエストによるリモートアクセスが可能
COGは、衛星や気象データの保存形式として人気があります。
▷詳細はこちら:COG公式サイト

◾️COPC (Cloud Optimized Point Cloud)
COPCは、COGと同様の基本的課題を解決することを目指していますが、Octree(八分木)構造で点群データを格納します。一般的なLAZ(圧縮LAS)形式を基にしており、いくつかの改善が加えられています。
・空間インデックスによって八分木構造での効率的アクセスが可能
・進行的密度により、ズームレベルや空間スケールに応じて必要な解像度・密度の点群データを段階的に取得できる
・COGと同様、HTTPリクエストによるリモートアクセスも可能
ちなみにCOPCを牽引しているHobu社の人は、コプシーと発音していました。
▷詳細はこちら:COPC
◾️Zarr(ザール)
Zarrは、巨大な多次元配列(データキューブ)の保存と処理のために設計された比較的新しいデータ形式です。
・ 画像データ、気象データ、時系列データなどの保存に最適
・チャンク化と圧縮による効率的な保存、並列処理が可能な設計
・クラウドネイティブな設計により、クラウドストレージへ直接書き込み・読み込みが可能
まだ新しい形式ですが、地球科学分野を中心に大きな関心を集めています。
▷詳細はこちら:Zarr公式サイト
データ解析ツール
データの保存や管理についていくつか興味深い方法を紹介してきましたが、ここで、今回のカンファレンスで紹介されていた分析ツールをいくつかご紹介します。
◾️GeoJupyter https://github.com/johanvdw/geo-jupyter
・Jupyterノートブック上で地理空間データの可視化や解析ができるツール
・慣れ親しんだ開発環境でデータを移動することなく解析ができる
・地理空間分析を始めたい人に最適
・チームでデータを共有しながら分析できる
◾️Fused https://www.fused.io/
・リアルタイムで解析ワークフローを開発・共有できるクラウドベースの地理空間データ解析プラットフォーム
・Pythonベースのユーザー定義関数(UDF)が中心で、サーバレスインフラ上で動作
・UDFの規模が大きくなるにつれて自動的にリソースが増加し、作成時に即座にデプロイされるため、外部からのワークフローアクセスも容易
◾️Wherobots https://wherobots.com/
・Apache Sedonaをベースとした、大規模な地理空間解析に対応したオンラインデータプラットフォーム
・大規模データレイクにおける効率的なデータ管理とクエリ実行が可能
Icebergは、Geospatialデータ型へのネイティブサポートを発表したばかりで、地理空間パイプラインの強力なツールとなります。
◾️Model Context Protocol (MCP) https://github.com/modelcontextprotocol/servers
・地理空間専用ではありませんが、ワークフローの加速に有効なプロトコル
・大規模言語モデル(LLM)をローカル解析環境やさまざまなオンラインサービスと統合し、ユーザー入力に基づいた空間データの解析・可視化をAIモデルに任せることが可能
オープンデータリソース
最後に、クラウドネイティブなデータフォーマットで現在アクセス可能なオープンデータのソースを3つ紹介します。これらのデータをデータ管理や分析ツールと組み合わせれば、今すぐ強力なクラウドネイティブ地理空間解析環境の構築が可能になります。
◾️GEE Community Catalogue
https://gee-community-catalog.org/
◾️Overture Maps Foundation
https://overturemaps.org/
◾️Source Cooperative
https://source.coop/
今回のCNGカンファレンスでは、クラウド環境で効率よく地理空間データを保存・管理・解析するための最新ツールやフォーマットが紹介されました。特にSTAC、GeoParquet、COG、COPC、Zarrなどのデータ形式は、これからの地理空間データ活用において重要な役割を果たしそうです。
今回ご紹介したツールやフォーマットについては、今後も詳しく取り上げてまいります。
地理空間データの活用に関してご不明な点やご相談がありましたら、ぜひお気軽に弊社までお問い合わせください。