跳到主要內容
:::

教育百科logo

::: 知識發掘 - 教育百科
國家教育研究院辭書
基本資料
英文: knowledge discovery in data streams
作者: 劉吉軒
日期: 2012年10月
出處: 圖書館學與資訊科學大辭典
辭書內容
名詞解釋:
知識發掘是指能從大量資料中,以自動探索分析及塑模的方式,找出以前未知而可能有用之領域知識的軟體技術。從資料中萃取出的知識型態包括以下幾種:(1)分類或分群:根據資料內涵的差異性與共同性,將所有資料區分成不同的子類或次集合。例如:每月借書冊書大於100冊的讀者群;熱門借閱書籍類等;(2)概述:總結描述次類或子集合中資料的共同特徵。例如:每月借書冊書大於100冊的讀者都是研究生;(3)辨別:描述出能夠區分不同子類資料的性質。例如:要知道某研究生讀者是否就讀於工學院,也許可看其每月借書量,若此讀者之每月借書量少於5冊,則可判斷其為工學院之研究生;(4)比較:描述出某個子類或次集合的典型特徵,以供其他資料的比較分析。例如:一位典型的文學院研究生每月平均借書冊數超過20冊,借書的分類號集中於800號,而且幾乎都借過三島由紀夫或蔣勳的著作(註:以上範例可能隨資料來源圖書館之差異而有所不同)。知識發掘是一個嚴謹而有條理的過程,由可重複進行的、可人工操作的九個階段或步驟組成:(1)瞭解應用領域:建立基本的應用領域知識,初步評估資料的範圍與性質,定義知識發掘的具體目標;(2)建立資料集合:掌握具體可用的資料,取得必須的額外資料,整合成較完整的單一資料集合;(3)前處理:進行資料的清洗,包括處理部分缺失資料及去除極端異常資料等,以增加資料的可靠性;(4)資料轉換:選擇重要的特徵以減少資料的維度或將資料特徵值進行轉換,以得到更適合知識發掘的資料形式;(5)選擇合適的資料探勘工作:根據原先知識發掘的目標與資料準備的結果,決定是以預測或描述為主;預測性質的工作通常為監督式資料探勘,使用已知答案的資料建立模型,用來預測未知答案資料的類別或歸屬;描述性質的工作則屬非監督式資料探勘,包括建立資料屬性的關聯性與資料分佈的圖像呈現等;(6)選擇資料探勘演算法:根據搜尋資料型態或模型的目標,選擇合適的資料探勘方法;(7)使用資料探勘方法:將選定的資料探勘方法實施於資料集合,此步驟可能須重複好幾次,如調整演算法的控制參數,直到取得滿意的結果;(8)評估:對於找出的型態或模型進行解釋,並評估其可理解性與有用性;(9)使用發掘之知識:將取得的知識併入另一個實際運作的系統,正式施行於應用領域中。知識發掘起源於生產大量資料與理解資料之間逐漸擴大的差距,許多應用產業,如製造、工程、醫藥、金融、保險等的管理與研究人員也開始認知,若能善用其大量資料,發掘其中隱藏的未知知識,將能成為其提升競爭力的重要資產。知識發掘充分展現了智慧型計算的能力,同時也是資訊技術中最令人感到興趣、最被需求的產品之一。
資料來源: 國家教育研究院_知識發掘
授權資訊: 資料採「 創用CC-姓名標示- 禁止改作 臺灣3.0版授權條款」釋出