Mining note
Brother needed to go to school this weekend for examinations, because he didn’t pass the test last semester. There no school bus in the weekend, so I need to wake up at 6am and drove him to school.
We went to fishing market in 興達港 about 6:30pm, it was late and rain heavily on our way home.
I borrowed three books from school, there’re about data mining.
- SQL 2000 Analysis Service資料採礦服務 / 尹相志
- 資料採礦與商業智慧 : SQL Server 2005 = Data mining & business intelligence with SQL server 2005 / 謝邦昌
- 資料採掘理論與實務規劃手冊 / 孫惠民
I started from the third one.
一種利用分類、關聯分析、機器自我學習、序列分析、群集分析,以及其他統計方法,自龐大、紛雜的交易資料庫(資料倉儲)中,找出隱藏、未知,但卻對企業營運極為有用的資訊….這種資料過濾分析的處理及運算分析過程即稱為『資料採掘(Data mining)』或『資料探勘』。
資料採掘任務(Task)分為7種
- 關聯規則採掘 (Association Rule)
- 群集規則採掘 (Clustering)
- 分類規則採掘 (Classification)
- 預測分析式規則採掘 (Prediction)
- 趨勢分析規則 (Trend)
- 偏差式分析 (Deviation)
- 總結規則採掘 (Summarization Rule)
資料採掘擁有不同的採掘方法和技術,而不同的採掘方法和技術,其運算分析的法則是有差異的,因此依據採掘出的資料特性,可經資料採掘的採掘方法區分為五種採礦類型:
- 分類(Classification)採掘分析技術-主要用於決策分析(Data Analysis)。將特定挑選的資料使用數狀結構(Tree Structure)方式呈現->決策樹,常用來處理特定的風險判別、目標行銷、客戶管理分析等
- 趨勢分析 (Trend Analysis)/預測(Prediction)分析
- 群集規則採掘 (Clustering)-分群主要目的是為了找出各組間差異,及同組中的相似性,使群內差異小,群外差異大。
- 關聯 (Association)採掘規則分析-從交易資料庫中、挖掘及尋找具有特定關聯的規則。
- 循序特徵(Sequence Patten)分析-與『關聯採掘』最大不同點在於『循序特徵』中的項目是以時間為區分,來找出特定時間內的可預期的特定行為特徵。
方法概論
- Apriori-用於關聯採掘規則,是一種不斷掃描交易資料庫,利用層次過濾及消除的方法找出資料項目間的所有關聯規則的演算法。
- 模糊查詢(Fuzzy Query)-用於預測與決策。程式中最複雜最重要的一種查詢設計, 設計出大範圍沒有特定只定條件或無法指出合乎範圍邏輯的分析應用程式。
- PMML(Predictive Model Markup Language,預測式模型標示語言)-使用XML
Share your thoughts