數據挖掘的名詞解釋?
數據挖掘是指通過算法從大量數據中尋找隱藏信息的過程。
數據挖掘通常與計算機科學有關,通過統計學、聯機分析處理、信息檢索、機器學習、專家系統(依靠過去的經驗規則)、模式識別等多種方法來實現上述目標。
數據挖掘對象
1.數據類型可以是結構化的、半結構化的,甚至是異構的。發現知識的方法可以是數學的、非數學的、歸納的。最終發現的知識可用于信息管理、查詢優化、決策支持和數據維護。
2.數據挖掘的對象可以是任何類型的數據源。可以是關系數據庫,是包含結構化數據的數據源;也可以是數據倉庫、文本、多媒體數據、空間數據、時間序列數據、W
數據挖掘分類方法有哪些?
數據挖掘的分類方法如下:
(1)決策樹
決策樹歸納是一種經典的分類算法。它采用自頂向下的遞歸分治法構造決策樹。信息增益度量用于在樹的每個節點選擇測試屬性。可以從生成的決策樹中提取規則。
(2)KNN法(K-最近鄰法)
KNN法,即K近鄰法,最早由Cover和Hart于1968年提出,是理論上比較成熟的方法。這種方法的思路非常簡單直觀:如果一個特征空間中的k個最相似樣本中的大部分屬于某個類別,那么這個樣本也屬于這個類別。這種方法只根據分類決策中最近的一個或幾個樣本的類別來確定待分類樣本的類別。
(3)SVM方法
SVM(SupportVectorMachine)方法是由Vapnik等人在1995年提出的,具有相對優良的性能指標。該方法是一種基于統計學習理論的機器學習方法。通過學習算法,SVM可以自動找到那些具有良好分類能力的支持向量,由此構造的分類器可以最大化類間間隔,因此具有更好的適應性和更高的分類率。該方法只需要根據不同領域中邊界樣本的類別來確定最終的分類結果。
(4)VSM方法
VSM方法是向量空間模型(向量空間模型)EModel)方法,由Salton等人于20世紀60年代末提出。這是最早也是最著名的信息檢索數學模型。基本思想是將文檔表示為加權特征向量:DD(T1,w1;T2,W2;…;Tn,Wn),然后通過計算文本相似度來確定待分類樣本的類別。當文本表示為空間向量模型時,文本的相似度可以用特征向量之間的內積來表示。
存在