GBDX筆記本和亞馬遜SageMaker系統地挖掘地理空間數據
DigitalGlobe的100多PB高分辨率圖像存檔是關于我們不斷變化的星球的豐富信息源。但要充分探索和挖掘這些財富,需要一種有效的方法來管理和分析所有數據。我們著手尋找解決方案。
我們解開DigitalGlobe圖像庫功能的第一步是將數據加載到亞馬遜網絡服務(AWS),這是一個計算友好型環境,可高效管理數據并實現大規模分析。我們努力的結果是推出了稱為GBDX的地理空間大數據平臺,GBDX是用于分析衛星圖像的水平可擴展計算環境。但即使擁有出色的計算環境和越來越多的分析方法和算法,真正利用我們的數據需要大量的工作。這就是機器學習變得至關重要的地方 - 分析海量數據并快速有效地提取有意義的情報。
協調一個強大的機器學習平臺可能會有挑戰性,即使對于像DigitalGlobe這樣以數據為中心的公司來說也是如此。這就是為什么我們轉向亞馬遜SageMaker,它通過流暢的打包培訓數據訪問,培訓服務和模型托管服務提供幫助。憑借與我們的數據相同的計算環境提供的這些強大的服務,門戶開啟了快速和創新之門。
我們知道通過機器學習計劃成功獲得高質量結果的關鍵在于需要投入可靠的培訓數據。
為了提供創建訓練數據的基礎,GBDX團隊為DigitalGlobe圖像構建了一種名為RDA(柵格數據訪問)的新數據訪問模式。衛星圖像是沉重的數據。分割后的單條圖像可以是20 GB和40 GB。移動可能耗時且昂貴的大塊數據。為了使衛星圖像數據更加易于使用,RDA將這些大帶分成了小圖像和相關數據,這些數據的大小可以流式傳輸和更有效地使用。
圖像芯片也是創建訓練數據的重要基礎。我們可以使用推理算法動態生成帶有標記的GeoJSON向量的小圖像,這些對象是我們想要檢測的對象。下圖強調了一些衛星圖像訓練數據的例子:停靠的船只(綠色),正在進行的船只(藍色)和飛機(紅色)。
與標準照片不同,衛星圖像需要大量復雜的后期處理才能在視覺上吸引人并且有助于分析。實施正射校正,平滑掃描和大氣補償等遙感技術的需求可能會嚇跑許多潛在的數據科學家。
遙感技術的例子
RDA動態執行這些處理步驟,以向用戶提供所需的特定圖像產品。我們通過在AWS中交易存儲來進行計算。從機器學習的角度來看,這是因為我們可以結合SageMaker和RDA動態地將圖像獲取到模型訓練環境中。這意味著我們現在可以訪問更加豐富多彩的數據庫來構建更好的模型。
我們很高興能夠在動態培訓數據環境中利用SageMaker。這為DigitalGlobe提供了系統地從我們的圖像中提取智能的潛力。我們喜歡在機器學習中看到良性循環,現在所有這些成分都已到位。
使用SageMaker的培訓和模型托管服務,我們可以以編程方式在我們的圖像中找到感興趣的對象,并使用經過驗證和驗證的結果來增強我們的培訓數據。這意味著我們推斷下一個衛星收集隨著時間的推移會變得更好。我們可以從架構的角度來看待這個問題,將過程分解為圖像的探索,培訓和模型的編排以及結果的消耗。
然后,由此產生的經過良好調整的模型可以幫助我們跨越我們的100 PB容量的數據存檔來查找有趣的數據,并將當前結果放入歷史背景中。我們可以在下面的例子中看到這一點,將SageMaker創建的建筑物檢測模型應用于拉斯維加斯當前的衛星圖像。然后我們復制7年的分析和300幅圖像,將結果放在上下文中。
由于托管的SageMaker模型可以流暢地擴展,我們可以為希望執行各種對象檢測和分割的客戶提供GBDX筆記本的交互式用戶體驗。還有更多的用途我們還沒有發現。

Bigemap GIS Office 國產基礎軟件
Bigemap GIS Office是一個全面且易于使用的國產化基礎軟件,為用戶提供數據處理、編輯、數據分析、集成以及可視化呈現的綜合數據集平臺。支持上百種數據格式:shp/kml/kmz/dwg/dxf/gpx/csv/excel/txt/tiff/geotiff/osgb/mbtiles/tiles等,對數據流轉、嵌入、融合、以及更多地為用戶提供數據的增強處理及多種分析工具。在不同場景不同行業下支持坐標系轉換CGCS2000/WGS84/Xi’an80/Beijing54/UTM等多種投影互轉互換、支持專題地圖、大數據加載、航拍影像、矢量數據、柵格數據的導入導出、瓦片切片及地圖服務發布。
了解詳情>>