(1.湖南萬源評估咨詢有限公司,長沙,410011;2.武漢大學資源與環境科學學院,武漢,430079)
本文介紹和分析了兩種非經典的數學方法:雲理論和粗糙集理論。通過對這兩種方法的比較和結合,建立了基於雲理論和粗糙集理論相結合的土地適宜性評價模型,並在此基礎上進行實例研究和應用。
關鍵詞:粗糙集理論;雲理論;數據挖掘;土地適宜性評價
土地適宜性評價是對特定土地利用類型的適宜性和適宜性的評價。它是合理利用土地的重要內容。通過對區域內所有土地資源的研究,為土地利用總體規劃中的人地平衡、土地布局和土地結構調整、土地開發利用等工作提供科學依據。因此,正確評價土地適宜性,合理劃分適宜等級是規劃決策的首要任務之壹,而評價方法作為獲得正確評價結果的途徑尤為重要。
傳統的評價方法如極限條件法、回歸分析法、經驗指數法、層次分析法等過於簡單,在壹定程度上不能客觀全面地反映實際情況。隨著智能技術的不斷發展和完善,評價方法也從傳統的簡單數值方法發展到智能方法。由於土地適宜性的不確定性,利用挖掘技術處理大量不確定數據更有優勢。
1粗糙集理論和雲理論的特點
粗糙集理論是壹種描述不完全性和不確定性的數學工具,能夠有效地分析和處理不精確、不壹致、不完整等不完全信息,發現隱藏的知識,揭示潛在的規律。它能有效地從現有數據中發現關聯規則,並能支持多步知識獲取,如數據預處理、數據約簡、規則生成、數據依賴獲取等。雲理論是基於傳統模糊集理論和概率統計的定性定量轉換模型。定性概念以期望值ex、熵en、超熵he為代表,是基於研究定性與定量之間不確定性轉化的體系。作為壹種處理不確定性的新理論,可以幫助數據的離散化和規則的推理,使得這種方法更接近人類思維領域,為人工智能更好的發展奠定基礎。
雲理論和粗糙集理論都是對經典集合論在處理不確定性和不精確性方面的概括,都可以用來描述知識的不精確性和不完備性,但出發點和側重點不同。雲理論結合了模糊性和隨機性,而粗糙集通過上近似集和下近似集來描述不確定性。粗糙集不需要任何額外的數據信息,在導出關聯規則方面有其獨特的優勢。雲理論處理不確定信息的方法需要壹些額外的信息或數據的先驗知識,但它提供了壹種定性和定量轉換的方法。雖然雲理論和粗糙集理論各有不同的特點,但在研究不確定數據方面,兩者有著密切的聯系和很強的互補性。將雲理論引入粗糙集方法,改進粗糙集的結構化模型,不僅可以提高發現算法的效率,還可以提高系統模型的魯棒性。土地適宜性是壹個定性概念。利用粗糙集理論和雲理論建立土地適宜性評價模型,可以優勢互補,取長補短,為土地適宜性評價的客觀性提供了可能。
2.基於雲理論和粗糙集的評估模型的建立
雲理論與粗糙集方法的結合以基於雲理論的定量-定性轉換方法作為粗糙集方法的預處理手段,將定量數據轉換為定性數據,或將定性數據轉換為不同概念層次的新的定性數據,然後應用粗糙集方法發現分類決策知識,最後利用雲理論的不確定性推理方法應用這些知識,即根據新的定量或定性條件數據推斷出定量或定性結果,從而表達和傳遞知識和推理的不確定性。就具體建模而言,首先根據原始數據制作初始決策表,對於每個條件屬性,檢查其是否為離散屬性。如果是,則將其離散化,直到整個決策表完全轉換為離散數據,然後做出最終的決策表。在此決策表的基礎上,通過粗糙集方法發現關聯規則並計算屬性的重要性,得到關聯規則。最後,通過基於雲理論的推理方法得到定性推理結果。整個模型如圖1所示。
圖1評估模型圖
其中,基於雲理論的規則推理的詳細過程如圖2所示。
2.1決策表的建立
收集影響土地適宜性的數據,如坡度、質地、有機質含量、厚度等。,對原始數據進行抽樣和整理,根據土地適宜性評價的目的(如宜林、宜牧等)制作信息決策表。).
2.2數據預處理
很多情況下,要處理的信息表並不是壹個完整的信息表,表中的壹些屬性值被省略了。在這種情況下,可以通過給vacancy屬性值壹個特殊的值來處理,以區別於其他屬性值。
圖2雲理論推理
2.3數據離散化
利用雲模型模擬人類思維,劃分屬性空間。每個屬性被視為壹個語言變量(或多個語言變量的組合)。對於每個語言變量,都定義了幾個語言值,並且允許相鄰的語言值重疊。表示語言值的雲可以由用戶交互式地給出。設a雲A1 (Ex1,En1,He1),A2 (Ex2,En2,He2),...,對數值屬性給定壹個(Exn,Enn,Hen),任何屬性值X都作為語言項輸入到雲中。μ2, ...,μn,即屬性值μ和A1,A2,...,an,並檢索最大隸屬度μi,然後將X賦給Ai。如果兩個隸屬度μi和μj等於最大值,那麽X被隨機分配給Ai或Aj。
2.4決策表屬性約簡
基於粗糙集理論的知識獲取,利用決策表差別矩陣和差別函數的屬性約簡算法對原始決策表進行約簡,包括屬性約簡和屬性值約簡。
設s = < u,r,v,f >為決策表系統,r = p ∪ d為屬性集,子集p = {ai | i = 1,…,m}和d = {d}分別為條件屬性集和決策屬性集,u = {x1。CD (i,J)表示差別矩陣中第I行第J列的元素,那麽差別矩陣CD定義為:{AK | AK ∈ P ∧ AK (xi) ≠ AK (xj)},d(Xi)≠d(XJ);
土地信息技術創新與土地科技發展:2006年中國土地科學學會學術年會論文集。
其中I,j = 1,…,n。
根據差別矩陣的定義,當兩個樣本(實例)的決策屬性取相同值時,其對應的差別矩陣取值為0;當兩個樣本的決策屬性不同時,可以用某些條件屬性的不同值來區分時,其對應的可識別矩陣元素的值就是兩個樣本屬性值不同的條件屬性的集合,即兩個樣本的條件屬性的集合可以區分;當兩個樣本沖突時,即所有條件屬性具有相同的值,但決策屬性具有不同的值,則它們對應的差別矩陣中元素的值為空。
2.5計算屬性權重
對於屬性集c的導出處的分類屬性子集B ’?B的重要性可以通過兩者之間的相關性差異來衡量,即:
銣(碳)-銣-硼′(碳)
這表明當從集合B中刪除某個屬性子集B’的對象分類時,如何影響分類U/C的正域..
其中Rb (c) = card (POSP (q))/card (u)
是知識依賴性的度量,其中card表示集合的基數:
土地信息技術創新與土地科技發展:2006年中國土地科學學會學術年會論文集。
P正定義域稱為Q .對於U/P的分類,U/Q的正定義域是通過對U/P進行分類所表達的所有知識都能明確歸入U/Q類的論域中的對象的集合。
2.6基於值約簡的決策規則最小化的提取
基於值約簡的決策規則提取是基於決策表的值約簡。假設決策表有三個條件屬性A、B、C和壹個決策屬性d,通過約簡[x] a、[x] b、[x] c和[x] d的屬性值,在規則最小化原則下計算最小決策規則。
2.7基於雲理論的規則推理
基於雲理論的不確定性推理根據規則的數量可分為單規則和多規則推理,每條規則根據規則前件的數量可分為單條件規則和多條件規則。土地適宜性評價只需要定性推理結果,因此該模型通過計算屬性的重要度來求解。首先激活壹個實例的幾個規則,求出每個規則的隸屬度的雲滴,虛擬雲的期望值就是結果。最後,根據最大隸屬度選擇定性結果。
根據上述理論設計的土地適宜性評價系統如圖3所示。菜單是關於常用理論的基本方法,右邊壹系列步驟是關於建立數學模型的實現方法。中間的坐標界面用於顯示圖形結果。
圖3評估系統界面
3個應用示例
瓊海市位於海南省東部。東臨南海,北接文昌,西接屯昌,南接萬寧縣。瓊海市農業自然條件優越,旅遊資源豐富,但存在工業基礎薄弱、礦產資源貧乏、能源短缺、科技水平低、建設資金不足等制約因素。土地適宜性評價的主要任務是在收集土壤、地形、水利、氣候等資料的基礎上,對評價範圍內的所有土地進行適宜性評價,找出不適宜現狀利用的土地,給出適宜指定利用的土地等級。
3.1收集數據和整理數據
收集瓊海市所有關於土地適宜性評價的數據,包括5個條件屬性和1個決策屬性,按原單位劃分9311個實例。表1是壹個例子的決策表的壹部分。
表1決策表示示例
其中,Yjz代表土壤有機質含量,Hd代表土壤厚度,Zd代表土壤質地條件屬性,Sl代表水利條件屬性,S_c代表適合水產養殖的土地類型決策屬性。
3.2數據預處理
由於本例中得到的初始數據沒有缺失,不需要對初始決策表進行預處理,所以可以省略這壹步,所以得到的最終決策表與表1相同。
3.3數據離散化
對於決策表中的每個屬性,依次執行以下步驟以獲得離散的結果。
3.3.1計算屬性的數據分布函數
通過在屬性I的域中取每個可能的值來計算屬性I的數據分布函數gi (x );圖4是屬性厚度(Hd)的數據分布函數的曲線圖。
圖4屬性數據分布圖
3.3.2計算單個雲模型的數據分布函數。
找到數據分布函數gi (x)的峰值位置,將其屬性定義為雲的重心,然後計算擬合gi (x)的雲模型。雲模型函數fi (x)的計算如圖5所示。
圖5雲模型分布
這個圖是找到第二個峰的位置時擬合的基於雲的數據分布函數(紅色實線)。雲模型的參數是:
土地信息技術創新與土地科技發展:2006年中國土地科學學會學術年會論文集。
3.4離散化
通過上壹步得到的歸納了解概念雲後,對於每個需要離散化的屬性值,逐壹計算每個概念雲的隸屬度,取最大值作為離散化結果。表2是離散化結果的壹部分。
表2屬性離散結果
3.5屬性約簡
得到布爾函數的表達式,用布爾函數最小化算法計算約簡結果。將布爾函數轉換成二進制差別矩陣,對二進制差別矩陣進行化簡,得到決策表的約簡結果,如表3所示。
表3屬性簡化結果
3.6計算屬性權重
根據條件屬性對決策屬性分類的影響,計算每個條件屬性對決策結果的重要度和系數,如表4所示。(這個測度是根據宇宙中的例子得到的,不依賴於人的先驗知識。)
表4屬性權重結果
3.7決策推理
根據雲理論的多條件多規則推理方法,參考最小規則對原始數據進行推理,得到最終的年級劃分結果,如圖6所示。
圖6分級結果
4結論
利用上述模型,首先要盡可能多地收集對土地適宜性有影響的因素。利用雲理論對連續數據進行離散化後,可以根據確定屬性重要性的方法篩選評價因素。在此基礎上,利用粗糙集方法獲取評價規則。此外,還要註意土地適宜性的問題。在土地適宜性評價中,應分別確定每種土地利用的等級,這不同於粗糙集壹般信息處理過程中把幾個不同的決策屬性合並成壹個決策屬性集的綜合決策。
應用結果表明,雲模型吸收了自然語言的優點,突破了現有方法的局限性,能夠將模糊性和隨機性有機地結合起來,形成空間數據挖掘中定性和定量之間的映射,發現的知識是可靠的。粗糙集理論擅長處理模糊和不完備知識,但處理原始模糊數據的能力較弱,基於雲模型的定性定量轉換方法更適合作為粗糙集的預處理。兩種方法在土地適宜性評價中的結合,可以結合兩種理論的優勢,更有利於解決定性評價的實際問題。
參考
張文秀,吳,等.粗糙集理論與方法[M].北京:科學出版社,2001。
曾黃林。粗糙集理論及其應用[M].重慶:重慶大學出版社,1998。
馬良張莉。基於粗糙集屬性約簡的模糊模式識別[J].上海理工大學學報,2003,25 (1): 50 ~ 53
楊,人。二維雲模型及其在預測中的應用[J].中國計算機學報,1998,21(11):961 ~ 969。
迪常凱。空間數據挖掘與知識發現[M].武漢:武漢大學出版社,2001.12。