當前位置:股票大全官網 - 資訊咨詢 - 集成系統支持的信息抽取

集成系統支持的信息抽取

(A)地理信息系統支持的遙感圖像處理

GIS經常與遙感圖像處理方法相結合,以更有效地增強和提取遙感信息。這主要表現在兩個方面。

壹方面,利用GIS作為遙感影像目視解譯的重要輔助手段,提高解譯精度。具體方法是顯示矢量專題圖層(如地質圖、地形圖、土地利用圖和植被覆蓋、水系發育等。)有助於疊加在待解釋圖像上的圖像解釋,只要這些矢量層已經與圖像配準並具有統壹的坐標。這可用於人機交互的圖像判讀,將圖像判讀結果直接繪制在屏幕上,並在監督圖像分類前選擇正確的訓練樣本區域,以提高分類精度。在這種應用中,還要註意這些專題圖層與影像之間的時間差,比如植被覆蓋度與時相的相關性很大。另外,如果時間差較長,要充分考慮壹些客觀條件的變化,比如用地類型、建築物、道路的變化。

另壹方面,g is與遙感圖像處理的結合表現在,在GIS技術的支持下,地學等知識直接參與遙感圖像的處理。例如,在遙感影像的分類中,可以直接將DEM、NDVI等知識作為遙感影像的新波段,與其他波段壹起進行分類,這樣這些專題信息的分布就會反映在分類結果中。例如,專家系統的應用也是地理信息系統和遙感技術相結合的結果。

(B)地理信息系統支持的專題信息提取

1.遙感專題信息提取方法研究進展

遙感專題信息提取是從遙感圖像數據中獲取某壹特定特征的信息,其目的是區分圖像中包含的專題目標。分類也是提取專題信息的壹種方法,但專題信息提取不同於壹般意義上的遙感圖像分類。先設定目標,然後有意識地進行面向對象的識別,而分類就是對圖像中已有的像素進行賦值和分類。隨著遙感技術的提高和遙感應用的深入,其方法也在不斷改進,經歷了目視解譯、自動分類、光譜特征信息提取、光譜和空間特征信息提取等多個階段。

視覺解釋是圖像識別的原始方式。現在圖像識別向兩個方向發展,壹是計算機的出現帶來的信息識別的自動化,二是沿著遙感信息傳輸的本質探索信息識別的高精度。他們沒有嚴格的界限,他們以各自的發展互相滲透。現有的計算機自動分類方法只利用了圖像數據,沒有自動加入其他方面的內容,比如地學知識,沒有充分利用人腦在分析圖像時應用的知識,所以不會達到很高的準確率。基於知識和專家系統的分類提高了分類的準確性。同樣,專題信息的初步提取也是分析特定目標的光譜特征,形成規律,對圖像進行操作。人工智能在計算機領域的出現,使得基於知識或信息的主題信息抽取成為可能。遙感成像是從多到少的映射,是確定的過程,影像解譯是從少到多的映射,是不確定的過程。因此,遙感解譯涉及壹個重要的地學處理過程,包括兩個方面:壹是補充遙感沒有帶回來的信息,即補充地學相關的信息;另壹種是根據圖像信息的地學分析,推斷出圖像中沒有反映出來的信息,這需要地學知識的有力支持。如何利用地球科學家對目視解譯的知識進行量化表達,讓他們參與計算機處理,從根本上實現知識參與的自動提取,是當前專題信息自動提取研究的重點。

在計算機自動分類之前,對訓練區域進行訓練,實際上是壹個統計過程。這個統計過程只是就這個圖像而言。然後利用統計結果進行回歸,建立基本適合該圖像的類別判定模型。提取專題信息時,通常先有壹套遙感信息模型,然後根據某壹幅具體圖像的實際情況不斷修改。本質是調整模型參數,最終使模型適合圖像。遙感信息模型是在現有地面實驗的基礎上提取的地物反演模型,但地物在衛星影像上的反射與地面的實測數據並不是壹壹對應的,這使得影像數據由於多種原因具有很大的隨機性,這就涉及到光譜輻射校正的問題。因此,需要將遙感信息論與實際地圖圖像有效結合,提取專題信息。

2.遙感地質專題信息提取

如今,遙感衛星“星光閃爍”,遙感數據空前豐富。然而,遙感信息的利用率極低。原因在於我們缺乏提取遙感專題信息的方法和模型。與土地利用/土地覆被遙感信息提取相比,遙感地質信息提取難度更大。壹般來說,遙感信息提取主要有三種方式:目視解譯提取、基於分類的信息提取和基於知識發現的遙感信息提取。遙感地質專題信息的提取有三種方式。

(1)視覺解釋和提取

早期從遙感圖像中提取信息的主要方法是目視解譯和提取。由於目視解譯可以綜合利用地物的色調或顏色、形狀、大小、陰影、紋理、圖案、位置、布局等影像特征知識,以及地物的專家知識,結合其他非遙感數據進行綜合分析和邏輯推理,可以實現更高精度的專題信息提取,尤其是在提取紋理結構特征較強的地物時。它是目前商業化生產的壹項技術,與傳統的非遙感方法相比有明顯的優勢。這種方法雖然費工費時,但由於計算機自動提取遙感地質信息的困難,在遙感地質信息提取中仍將長期存在。

(2)基於分類方法的遙感信息自動提取。

在遙感信息自動提取方面,分類方法的研究歷史最長,其核心是遙感圖像的分割,其方法包括監督分類和監督分類。就無監督分類而言,有K-MEANS法、動態聚類法、模糊聚類法和人工神經網絡法。在監督分類中,有最小距離法、最大似然法、模糊分類法和人工神經網絡法最大似然法需要所有類型及其概率的先驗知識,特別是它需要假設所有類型的分布都屬於正態分布,所以它是壹個帶參數的分類器。在先驗概率知識和各類正態分布的情況下,分類效果好,分類器具有分類速度快的優點。模糊分類是基於模糊數學的分類器。它基於壹個像素由多種類型組成,但每種類型的隸屬度不同的假設。在訓練分類器時,需要確定訓練樣本像素中每種類型的隸屬度。它不需要各類型的先驗概率知識,也不要求各類型服從正態分布。它是非參數分類器。然而,在訓練像素中很難確定每種類型的隸屬度。該方法適用於提取亞像素信息。人工神經網絡分類器是利用人工神經網絡技術構造的分類器。人工神經網絡是近年來發展迅速的非線性科學。它是壹種模擬生物神經網絡的人工智能技術,已廣泛應用於遙感圖像的趨勢分析、模式識別和分類。人工神經網絡是非參數分類器,不需要所有類型的先驗概率知識,也不要求所有類型服從正態分布。雖然用分類器分類需要很短的時間,但是訓練分類器需要很長的時間。

就無監督分類而言,其分類的結果需要專家對類別進行解讀和歸並,最終確定其所屬的類型。就監督分類而言,需要選取大量的訓練樣本區域,不僅費時費力,而且直接影響分類效果。同時,分類是對整幅圖像進行分割,對整體精度要求最高,所以不可能完全保證我們需要的專題信息的最高精度。分類是基於數理統計,而不是基於遙感信息的機理分析,也不是基於知識挖掘,這就很難實現遙感圖像專題信息提取的全自動化。同時,基於光譜特征的分類很難解決異物光譜相同的問題。在分類中獲得的知識通常既不可轉移,也不容易解釋。這也是我們知道結果,卻不知道原因的原因。我們必須隨時隨地重復為圖像選擇訓練樣本的工作。這樣,顯然遙感信息提取的自動化受到了很大的限制。因此,基於知識發現的遙感專題信息提取將成為另壹個最有前途的方向。

3.基於知識發現的遙感專題信息提取。

基於知識發現的遙感專題信息提取是遙感專題信息提取的發展趨勢。其基本內容包括發現知識,應用知識建立提取模型,利用遙感數據和模型提取遙感專題信息。在知識發現方面,包括單幅遙感圖像的光譜特征、空間結構和形態、物體間的空間關系等知識。其中,空間結構和形態學知識包括地物的空間紋理、形狀和邊緣形狀特征的知識;從多期遙感影像中,不僅可以發現上述知識,還可以進壹步發現地物的動態變化過程知識;各種相關知識都可以從GIS數據庫中找到。在利用知識建立模型方面,主要是利用找到的部分知識、部分知識或全部知識建立相應的遙感專題信息提取模型,如圖3-8所示。利用遙感數據和模型提取遙感專題信息時,應由簡單到復雜,從單壹知識和單壹模型的應用到多知識和多模型的綜合應用。從單壹數據的使用到多種數據的綜合使用。

4.基於光譜知識的遙感專題信息提取。

地物光譜知識是遙感專題信息提取中最重要的知識。對地物光譜特性的研究長期以來受到各國的高度重視。中國對地物光譜進行了深入研究,出版了《中國典型地物光譜及其特征分析》、《遙感反射光譜測試與應用》等書籍。周成虎和杜雲燕在分析水體光譜特征的基礎上,建立了有效的NOAA AVHRR水體提取模型。根據水稻和背景的光譜特征,陳明真建立了水稻種植面積的提取模型(TM4/TM1、TM4/TM3、TM4/TM2)。Helmut Mayer Carsten Steger通過對道路譜知識的分析,探討了從遙感圖像中提取道路的方法。Jinfei Wang,Paul M.Treitz和Philip J.Howarth討論了通過梯度方向剖面分析從SPOT PAN圖像中提取新道路的方法,並將其用於更新城市GIS數據庫中的道路網。V.Lacroix和M.Acheroy使用約束梯度方法提取房屋的拐角。

R.Haralick,S.Wang,G.Shapiro,J.B.Campbell討論了利用壹致性標記技術提取河網及其流向。Moller-Jenson提出利用NOAA AVHRR的CH4 < 45和CH5 < 35建立水提取模型。尤普等人曾提出利用TM7波段通過閾值法提取水。

圖3-8基於知識發現的遙感專題信息提取模型

發現光譜知識有典型抽樣法、光譜曲線法和光譜剖面法。以新疆瓦什夏地區美國Landsat遙感影像為例,影像大小為512×512像素,主要典型特征為裸露巖石、積雪和陰影。為了利用這些特征的光譜知識,首先對這些典型特征進行光譜采樣,光譜采樣結果如圖3-9所示。可以發現這些天體有明顯的光譜差異。

通過對比可以發現,巖石裸露區、積雪區和山影的光譜特征明顯不同:

(1)整體來看,裸露巖石區域反射率較高,陰影反射率較低。中部的裸露巖石面積略高於或接近TM1、TM2、TM3和TM4波段的積雪面積,但遠高於TM5和TM7波段的積雪面積。

(2)積雪面積在TM1、TM2、TM3和TM4波段高於陰影,在TM5和TM7波段接近或略高於陰影。

圖3-9瓦石峽地區典型地物光譜采樣曲線

(3)在TM 1 ~ TM7波段,巖石暴露面積遠大於陰影面積。

(4)從光譜關系看,陰影區的反射率從TM1到TM7逐漸降低,即TM 1 > Tm2 > Tm3 > Tm4 > Tm5 > Tm6 > TM7。從光譜關系看,巖石暴露面積在TM4處為峰值,即TM3 TM5積雪區之間的光譜關系也很明顯,即從TM4到TM5有明顯的下降趨勢。

通過以上光譜分析,分別對裸巖、雪和陰影建立了基於光譜知識的提取模型:

雪:

1 ∶ 25萬遙感地質填圖方法與技術

陰影:

1 ∶ 25萬遙感地質填圖方法與技術

搖滾:

1 ∶ 25萬遙感地質填圖方法與技術

根據上述模型可以提取雪、陰影和裸露的巖石。

基於光譜知識的專題信息提取,要求地物和背景在光譜上是可分的,兩者之間很少有同構現象,地物內部的光譜要壹致。當物體內部的光譜不壹致時,可以借助物體內部特征成分的光譜進行提取。當局部物體內部成分的光譜與背景存在很多同構現象時,就需要借助局部物體的其他知識來提取。

5.基於地物紋理知識的專題信息提取。

當地物成分復雜且大於傳感器的空間分辨率時,可以遙感地物的結構和成分。其圖像有明顯的紋理特征。當存在不同於背景物體的紋理特征,僅基於光譜特征知識提取難以完全解決專題信息提取問題時,必須利用物體的光譜知識和紋理知識共同提取專題信息。紋理是指灰度值的空間變化,是由壹些紋理基元按照不同的空間配置組成的圖案。紋理基元的空間配置可以是隨機的、確定的、概率的和功能的。紋理可分為結構紋理和非結構紋理,也稱隨機紋理。在視覺解讀中,紋理壹般用粗細、光滑度、粒度、隨機性、方向性、線性、周期性和重復性來描述和表達。利用紋理識別地物時,需要將壹個主題與周圍地物的紋理特征進行對比分析。ERDAS IMAGINE中的紋理識別算法主要有四種:平均歐氏距離法(壹階)、方差法(二階)、斜率(三階)和峰度(四階)。他們的計算方法如下:

(1)平均歐氏距離法(壹階)

1 ∶ 25萬遙感地質填圖方法與技術

其中:xijλ-多波段圖像λ波段(I,j)像素的數字值;

活動窗口中心像素的XC λ-λ波段數字值;

n-窗口中的像素數。

(2)方差法(二階)

1 ∶ 25萬遙感地質填圖方法與技術

其中xij——是像素(I,j)的數字值;

n-活動窗口中的像素數;

m-活動窗口的平均值。

(3)斜率(三階)

1 ∶ 25萬遙感地質填圖方法與技術

其中xij——是像素(I,j)的數字值;

n-活動窗口中的像素數;

M——活動窗口的平均值;

方差。

(4)峭度(四階)

1 ∶ 25萬遙感地質填圖方法與技術

其中xij——是像素(I,j)的數字值;

n-活動窗口中的像素數;

M——活動窗口的平均值;

方差。

另外,常見的紋理檢測方法是* * *生成矩陣法。

本項目主要利用ERDAS IMAGEINE軟件的二階方差法計算圖像的紋理特征。計算中使用的移動窗口為5×5。從新疆瓦石峽地區TM圖像的紋理圖可以發現,巖石裸露區的紋理指數(二階方差)較高,圖像顯得較亮,而非巖石裸露區的紋理指數較低,圖像較暗。利用合適的閾值提取巖石裸露面積,可以發現結果基本符合實際情況。

6.基於地物形狀知識的專題信息提取。

有時,物體和背景不僅光譜特征相同或相似,紋理特征也相似。在這種情況下,需要根據地物的形狀知識進壹步提取。對於地質巖性,不同的巖性往往具有不同的空間特征:

(1)侵入巖

侵入巖壹般具有規則的平面幾何形狀,如圓形、橢圓形、透鏡狀、脈狀等。,而且大多缺乏層理意象的特征。大型侵入巖在圖像上往往有環狀、放射狀等類型的水系、節理或巖脈群。

(2)沈積巖

平面形態為條帶狀或條帶狀,具有明顯的層理影像特征。壹組分布有序的沈積巖往往構成不同顏色的層狀影像特征。

(3)變質巖

變質巖的圖像特征壹般與原巖成分、變質過程中新物質的加入和結構的變化有關。如果是變質巖,圖像特征與巖漿巖相似;如果是負變質巖,其圖像特征與沈積巖相似。

發現地物形態知識的方法有三種:基於周長和面積的方法、基於面積的方法和基於面積和面積長度的方法。

基於周長和面積的方法

形狀指數

1 ∶ 25萬遙感地質填圖方法與技術

對於圓形,k大於0.25,對於正方形,k等於0.25,對於矩形,k小於0.25。線狀物體,如道路、機場、河流等,K值較小。對於不規則物體,形狀越復雜,其k越小。

圓度:

1 ∶ 25萬遙感地質填圖方法與技術

緊湊性:

1 ∶ 25萬遙感地質填圖方法與技術

瘦率:

1 ∶ 25萬遙感地質填圖方法與技術

基於面積的測量

緊湊指數:

1 ∶ 25萬遙感地質填圖方法與技術

1 ∶ 25萬遙感地質填圖方法與技術

基於面積和面積長度

形狀率

1 ∶ 25萬遙感地質填圖方法與技術

橢圓指數

1 ∶ 25萬遙感地質填圖方法與技術

在所有上述公式中:

a-物體的面積;

AC-最小外接圓面積;

P——特征的周長;

長軸的長度。

形狀知識可用於定位或定性提取特征。用於定位定性提取時,首先增強提取地物之間的邊界;然後確定形狀指標,從而實現定性定位提取。用於定性提取時,主要是進壹步肯定提取的專題信息的屬性。

(C)在地理信息系統支持下對多種來源的信息進行綜合分析

在遙感地質專題信息的提取中,除了遙感數據外,還有大量的相關數據,如地質圖件、物理和地球化學數據等。,壹般都用。在使用這些數據時,有兩個步驟:第壹步是挖掘知識;第二步是利用這些知識將圖形數據與遙感圖像連接起來,以支持專題信息的提取。這個知識是壹些正相關知識和反相關知識。這兩種知識可以進壹步分為確定性知識和概率性知識。

21世紀衛星遙感將為地學研究提供多光譜、多時相、多分辨率、全天候的對地觀測數據,推動遙感更廣泛、更深入的應用。但在過去的二三十年裏,地學思維引導了遙感技術的發展方向;同時,遙感應用水平滯後於空間遙感技術的發展。突出表現為衛星發回的遙感數據沒有得到充分利用,信息提取水平的滯後使得隱藏在遙感數據中的豐富知識遠未被充分挖掘和利用,造成遙感信息資源的巨大浪費和應用價值的降低。因此,信息提取的能力和效率將成為未來遙感應用面臨的突出問題之壹。

數據挖掘(DM)和從數據庫中發現知識(KDD)的技術理論出現於20世紀80年代末,近年來發展迅速,是人工智能、機器學習和數據庫技術相結合的產物。它不同於簡單地從數據庫管理系統中檢索和查詢信息,它強調“從數據庫中發現隱藏的和以前未知的潛在有用信息”和“從數據中識別高效模式”的非凡過程。這個模型是新的、潛在有用的、最終可理解的”,其目的是將大量原始數據轉化為有價值的知識。這是目前和未來衛星遙感信息處理的瓶頸問題。借鑒數據挖掘和知識發現的理論和技術,將有助於解決遙感數據快速增長與人們對數據處理和理解困難之間的矛盾。

1.空間數據挖掘和知識發現

KDD和數據挖掘技術的出現和發展是基於這樣壹個事實,壹方面,數據和數據庫在迅速膨脹;另壹方面,數據庫的應用還處於查詢和檢索階段,隱藏在數據庫中的豐富知識遠未被充分挖掘和利用。數據庫的大量增加與人們在處理和理解數據庫方面的困難形成了強烈的對比。KDD壹詞最早出現在8月份在美國底特律召開的11人工智能國際聯席會議的座談會上,1991、1993、1994,之後繼續舉辦KDD座談會。隨著參與人數的不斷增加,從1995開始每年都會舉辦壹次國際KDD會議。除了理論研究,已經出現了相當數量的KDD產品和應用系統,並且在實際應用中取得了壹定的成功。

根據法耶茲的定義,KDD是“從數據集中識別有效、新穎、潛在有用且最終可理解的模式的非凡過程”。KDD的壹般過程(圖3-10)包括數據準備、數據挖掘和結果解釋與評價。

圖3-3-10 KDD流程示意圖

數據準備包括數據選擇、數據預處理和數據轉換。數據選擇的目的是確定發現任務的操作對象,即目標數據,目標數據是根據用戶的需求從原始數據庫中提取的壹組數據。數據預處理的目的是去除噪聲等。當數據挖掘的對象是數據倉庫時,壹般來說,在生成數據倉庫時就已經完成了數據選擇和數據預處理。數據轉換的主要目的是對數據進行降維或降維,即從初始特征中找到真正有用的特征,以減少數據挖掘中需要考慮的特征或變量的數量。

在數據挖掘階段,首先要確定挖掘的任務或目的是什麽,並考慮和決定使用什麽挖掘算法。同壹個任務可以用不同的算法實現,選擇實現算法需要考慮兩個因素:壹是不同的數據有不同的特征,需要使用相關的算法進行挖掘;二是用戶或實際操作系統的要求,比如準確性和可理解性之間的偏好。

2.數據挖掘和知識發現的主要類型和方法。

通用統計數據庫的數據挖掘是最早也是最成熟的。壹般來說,數據挖掘和知識發現可以分為以下幾種類型(法耶茲,1997):

(1)分類:將數據項映射到壹個或幾個定義的類的學習函數。

(2)回歸:將數據項映射到實值預測變量的學習函數。

(3)聚類:壹種尋找有限類別來描述數據集的方法。

(4)泛化(或泛化):找到壹種方法來描述每個數據子集的* * *性質。

(5)依賴模式:尋找描述變量之間顯著依賴關系的模式。

(6)變化和偏差的檢測:與以前的數據進行比較,發現顯著變化。

目前,在數據挖掘和知識發現的研究中出現了大量的新方法和各種方法的組合,其中比較著名的方法有:

(1)基於決策樹分類的ID3和C4.5方法。

(2) AQ15和CN2概括方法。

(3)粗糙集方法解決不精確和不確定知識。

(4)大量的人工神經網絡方法,如經典的反向傳播[[BP]]算法、自組織映射(SOM)、自適應共振理論(ART)。

(5)貝葉斯概率網絡學習方法。

(6)關聯規則先驗的生成方法。

數據挖掘和知識發現作為目前國外的研究熱點之壹,不僅是人工智能學者的研究熱點,也是數據庫專家的探索對象。他們的工作涵蓋了醫學、機器學習、人工智能、數學、市場營銷等多個領域。得到了很多有用的知識。到目前為止,國內從事這方面研究的單位還不多,將KDD和數據挖掘技術應用於衛星遙感信息處理還是壹個全新的課題。

3.遙感圖像中的數據挖掘和知識發現。

衛星遙感數據庫作為壹種數據庫,自然可以借鑒壹般的數據挖掘和KDD技術,對其中存儲的信息進行處理和識別。作為壹種特殊的數據庫&圖像數據庫,它具有不同於壹般關系數據庫和事務數據庫的信息內容,包含了豐富的時間、光譜和空間信息。所以就這個類庫中的知識發現而言,數據挖掘也應該有特殊的流程和方法。

根據DM和的技術流程圖(圖3-11)並考慮到衛星遙感數據的特殊性,中科院何等人提出了面向地質應用的衛星遙感數據挖掘和知識發現的理論和技術框架。在這個框架中,數據挖掘扮演著極其重要的角色。它包括遙感數據的相位選擇、應用預處理、特征分析、信息識別和知識解釋。在現實生活中,很多遙感用戶忽略了這壹過程的特殊作用,直接將原始遙感影像的解譯結果作為應用的依據(雖然在解譯過程中也加入了人類的知識),因此獲得的知識往往是膚淺的、表面的、不準確的。只有在遙感數據挖掘過程中充分考慮原始數據的光譜、空間和時間特性,才能更好地實現面向遙感應用的有價值、準確和高層次的知識發現。

圖3-衛星數據的遙感挖掘與知識發現+01