當前位置:股票大全官網 - 股票投資 - 關於知識發現的詳細信息的完整集合

關於知識發現的詳細信息的完整集合

知識發現是根據不同需求從各種信息中獲取知識的過程。知識發現的目的是禁止用戶接觸原始數據的繁瑣細節,從原始數據中提取有效的、新穎的、潛在有用的知識,並直接報告給用戶。

中文名:知識發現mbth:數據庫中的知識發現,KDD知識發現:數據挖掘”是壹個更寬泛的說法。數據分類:數據挖掘研究的重要分支之壹,概念分析、基本任務、數據分類、數據聚類、衰退與預測、相關與關聯、序列發現、描述與識別、時間序列分析、知識類型、技術應用、概述、典型技術、創新技術、操作步驟、應用範圍、概念分析數據庫中的知識發現(KDD)是所謂“數據挖掘”的壹個更寬泛的術語,即可以根據不同的需求從各種媒體表達的信息中獲取知識。知識發現的目的是禁止用戶從原始數據的繁瑣細節中,從原始數據中提取有意義的、簡潔的知識,並直接報告給用戶。基於數據庫的知識發現(KDD)和數據挖掘之間仍然存在混淆。通常,這兩個術語可以互換使用。KDD代表了將低級數據轉化為高級知識的整個過程。KDD可以簡單定義為:KDD是在數據中確定有效的、新穎的、潛在有用的、基本上可以理解的模式的特定過程。數據挖掘可以看作是從觀測數據中提取模式或模型,是對數據挖掘的壹般解釋。雖然數據挖掘是知識發現過程的核心,但它通常只占KDD的壹部分(大約15%到25%)。因此,數據挖掘只是整個KDD過程中的壹步,KDD過程中必須包括多少步和哪壹步並沒有確切的定義。然而,壹般過程應該接收原始數據輸入,選擇重要的數據項,減少、預處理和壓縮數據組,將數據轉換成適當的格式,從數據中發現模式,並評估和解釋發現的結果。相關書籍的基本任務數據分類是數據挖掘研究的重要分支之壹,也是壹種有效的數據分析方法。分類的目標是通過對訓練數據集的分析,構建壹個分類模型(分類器),將數據庫中的數據記錄映射到給定的類別,從而可以用於數據預測。數據聚類當待分析的數據缺乏必要的描述信息,或者根本無法組織成任何分類模式時,可以利用聚類函數將壹組個體按照相似性分成若幹個類別,從而自動找到類別。聚類類似於分類,是對數據進行分組。但與分類不同的是,聚類中的組不是預先定義的,而是根據實際數據的特征和數據之間的相似性來定義的。下降和預測這是壹種特殊類型的分類,可以看作是根據過去和現在的數據來預測未來的數據狀態。通過衰減統計技術建模的數字值的預測,學習壹個(線性或非線性)函數將數據項映射成壹個數字預測變量。關聯和相關是指在大規模數據集中發現項目集之間有趣的關聯或相關性。關聯規則是指通過分析數據庫中的數據,從壹個數據對象的信息中推斷出另壹個數據對象的信息,找出重復概率高的知識模式。壹個帶有置信因子的參數經常被用來描述這種不確定的關系。序列發現通常是指確定數據集中的序列模式。當發現某些類型的數據關系時,這些模式類似於關聯和相關。但是對於關系是基於時間序列的數據組,順序發現和關聯是不同的。摘要:順序發現是將數據映射到關於數據集的簡明描述的子集,或者映射到數據庫中特定用戶數據集的高度概括的數據。描述和判別是指發現壹組特征規則,每壹個特征規則都是壹個命題,要麽顯示數據集的特征,要麽區分實驗類和比較類的概念。時間序列分析的任務是從股票價格指數中發現屬性值的發展趨勢,如金融數據、客戶數據、醫療數據等。它用於搜索相似模式,以發現和預測特定模式的風險、因果關系和趨勢。知識類型1)泛化。是根據數據的微觀特征發現的具有普遍性、高層次概念、中觀或宏觀的知識。2)分類&;聚類).反映同類事物相同性質和不同事物之間差異的特征知識。用於反映數據的聚合方式或根據對象的屬性區分對象的類別。3)聯想。它是反映壹個事件與其他事件之間的依賴或關聯的知識,也稱為依賴關系。這類知識可用於數據庫規範化、查詢優化等。4)預測知識。通過時間序列數據,由歷史和當前數據預測未來情況。它實際上是壹種以時間為關鍵屬性的相關知識。5)偏差知識。通過分析標準類之外的特例、數據聚類之外的異常值、實際觀測值和系統預測值之間的顯著差異,描述了這些差異和極端特例。技術應用概述知識發現中出現了很多知識發現技術,也有很多分類方法。根據挖掘的對象,有關系數據庫和多媒體數據庫。根據挖掘方法,有數據驅動、查詢驅動和交互式;根據知識的類型,有關聯規則,特征挖掘,分類,聚類,總結知識,趨勢分析,偏差分析和文本挖掘。知識發現技術可以分為兩類:基於算法的方法和基於可視化的方法。大多數算法都是在人工智能、信息檢索、數據庫、統計學、模糊集和粗糙集理論等領域發展起來的。典型的知識發現技術典型的基於算法的知識發現技術包括貝葉斯概率理論和最大似然估計、回歸分析、最近鄰法、決策樹、K法聚類、關聯規則挖掘、Web和搜索引擎、數據倉庫和聯機分析處理(OLAP)、神經網絡、遺傳算法、模糊分類和聚類、粗糙分類和規則歸納等。這些技術已經非常成熟,在相關的書籍和文章中都有詳細的描述。介紹了壹種基於可視化的方法。在圖形學、科學可視化和信息可視化領域發展了基於可視化方法的創新技術,包括:①幾何投影技術。它是指通過使用基本的成分分析、因子分析和多維標度來發現立方體的有趣投影。②基於圖形技術。它是指將每個多維數據項映射成圖形、顏色或其他圖表,以提高數據和模式的表達能力。③面向像素的技術。每個屬性僅由壹個彩色像素表示,或者屬性值的範圍被映射到壹個固定的顏色映射中。④分層技術。指的是對多維空間進行細分,以層次化的方式給出子空間。⑤基於圖表技術。它是指利用查詢語言和抽取技術,將數據集以圖表的形式有效地呈現出來。⑥混合動力技術。指結合了上述兩種或兩種以上技術的技術。對操作步驟的知識發現過程有很多描述。它們只是在組織和表達上有所不同,而在內容上並沒有很本質的區別。知識發現的過程包括以下步驟:1。對問題的理解和定義:數據挖掘者與領域專家合作,對問題進行深入分析,以確定可能的解決方案和學習結果的評估方法。2.相關數據收集與提取:根據問題的定義收集相關數據。在數據抽取過程中,可以利用數據庫的查詢功能來加快數據抽取的速度。3.數據探索和清理:理解數據庫中字段的含義以及它們與其他字段的關系。檢查提取數據的有效性,並清理包含錯誤的數據。4.數據工程:對數據進行再處理,主要包括選擇相關屬性子集和消除冗余屬性,根據知識發現任務對數據進行采樣以減少學習量,以及轉換數據的表達方式以適應學習算法。該步驟可以重復多次,以便使數據與任務最佳匹配。5.算法選擇:根據數據和要解決的問題選擇合適的數據挖掘算法,決定如何在這些數據上使用這個算法。6.運行數據挖掘算法:根據所選的數據挖掘算法提取已處理數據的模式。7.結果的評價:學習結果的評價取決於需要解決的問題。領域專家對發現的模式的新穎性和有效性進行評估。數據挖掘是KDD過程的壹個基本步驟,它包括從數據庫中發現模式的特定挖掘算法。KDD過程使用數據挖掘算法,根據特定的測量方法和閾值,從數據庫中提取或識別知識。這個過程包括數據庫預處理、樣本劃分和數據轉換。事實上,知識發現的潛在應用非常廣泛,已經遠遠超出了最初的“架子子項目”。從工業到農業,從天文學到地理學,從預測到決策支持,KDD正發揮著越來越重要的作用。許多計算機軟件開發商已經推出了他們的數據挖掘產品,如IBM。微軟,SPSS。SGI,SLPInfoware,SAS(ObjectBusiness)等等。數據挖掘作為信息處理的高新技術,已經在實際應用中嶄露頭角。1,商務。”架子項目”是KDD最初成功應用的典範。正是因為在商業上的成功應用,不斷影響著KDD的發展,進而擴展到越來越廣泛的應用領域。如今,商業,尤其是銷售和服務行業,仍然是KDD應用最廣泛的領域之壹。主要用於銷售預測、庫存需求、零售點選擇、價格分析和銷售模式分析。例如,酒店可以通過分析特別高和特別低消費的客戶的偏離模式來發現壹些有趣的消費模式:edW a-ge ring公司的AutOm使用高級沙發重新分配的ModeIMaX預測模型,並開發LO-LO-tieryMachineSi[e selection..]結合地理信息分析確定佛羅裏達州安裝彩票機的最佳地點。2.農業。農業是壹個龐大而復雜的系統。我國農業部門幾十年來積累了大量的關於土肥、氣象、病蟲害、市場信息等方面的數據、實例和經驗知識,但沒有得到充分利用。通過KDD可以發現很多有價值的、規律性的知識。比如,通過對病蟲害數據庫的分析,找到病蟲害的影響因素、遷移或傳播規律,從而遏制災害的發生、擴大或減少,通過對國際國內市場信息的挖掘,指導農業生產規劃。知識發現的例子圖3。醫學生物學。醫療保健行業有大量的數據需要處理,但該行業的數據由不同的信息系統管理,數據組織性差,類型復雜。例如醫療診斷數據,其可以包括文本、值、圖像等。,都給應用帶來壹些困難。KDD主要用於醫學診斷和分析、成分-效用分析、新藥開發和優化藥物生產過程控制。4.金融保險。財務需要收集和處理大量的數據,分析這些數據,發現它們的數據模式和特征,進而發現壹個客戶、消費群體或組織的財務和商業利益,觀察金融市場的變化趨勢。KDD廣泛應用於金融領域,如金融、股市分析和預測、賬戶分類、銀行擔保和信用評估等。5.通信和媒體。如線路故障預測、收視率影響因素、網站入侵檢測、web信息發現等。6.國防和軍事方面。如軍事情報數據分析、指揮自動化與決策、戰爭風險預測、武器攻擊效果分析、地理數據分析等。7.其他方面。如工業生產中的設備故障診斷、生產過程優化、科學研究中的數據處理與分析、氣象分析與預報等。