資料探勘(Data mining,或稱資料採礦)

作者:邵康

資料探勘(Data mining,或稱資料採礦)

資料探勘(Data mining,或稱資料採礦)

(一)定義

是指從巨量資料中探索、挖掘隱藏其中的訊息,這些訊息包括趨勢(Trend)特徵(Pattern)相關性(Relationship)等,將其轉換為有價值的資訊或知識,可作為決策支援之用。

(二)功能

資料探勘包含五項功能:

1.分類(classification): 依分析對象的屬性分門別類加以定義,建立類組(class)

2.推估(estimation): 依既有連續性數值之相關屬性資料,獲得某一屬性未知之值。

3.預測(prediction): 依對象屬性之過去觀察值來推估該屬性未來之值。

4.關聯分組(affinity grouping): 從所有物件中決定將哪些相關物件放在一起。

5.同質分組(clustering): 將異質母體中區隔為較具同質性之群組(clusters),同質分組相當於行銷術語中的區隔化(segmentation),但是此時假定事先未對於區隔加以定義,而資料中自然產生區隔。

(三)資料探勘的種類

資料探勘的種類,依探勘方法分為以下兩種:

1.監督式資料探勘(Supervised Data Mining):

由上而下(top–down)的方法,目的為發展模型建立某一特定目 標變數與其他變數間的關聯性。

2.非監督式資料探勘(Unsupervised Data Mining):

由下而上(bottom–up)的方法,目的為從資料中發現規則,供使用者參考採用。

(四)常用的資料探勘技術

1.資料分群:

將資料中相似的個體聚集在一起,並以人為判定的方法,將資料分為數個群體。

2.類神經網路:

將資料的特徵透過電腦進行類似腦與神經的處理技術,再將結果作不同的呈現。

3.決策樹:

根據特定對象之屬性,觀察過去的行為或是歷史資料,推估其未來的可能性。

4.迴歸分析:

瞭解兩個或多個變數間是否相關,相關的方向與強度為何?並建立數學模型以便觀察特定變數。

5.關聯分析:

分析數據庫中各資料彼此相依的機率,常被用作分析公司各產 品同時被購買的關聯,又稱為購物籃分析

運用資料探勘手法所建定的分析模型,因環境在變,資料內容在變,或者很多分析的因素都在變,所以需要定期更新

AddThis Sharing

百科問與答

  • 百科留言(600字以內)
暫無討論