:::
特徵選取 - 教育百科
特 | |
徵 | |
選 | |
取 |
國家教育研究院辭書
基本資料
英文: | feature selection |
作者: | 葉鎮源 |
日期: | 2012年10月 |
出處: | 圖書館學與資訊科學大辭典 |
辭書內容
名詞解釋: 特徵選取(feature selection),又稱子集選取(subset selection),通常使用於機器學習領域,乃是結合學習演算法,依據特定的效能評估指標,從原有的特徵集合中挑選出具有鑑別能力且有效的特徵,藉以決定最佳的特徵子集合,使其效能指標達到最佳化的過程。簡單來說,特徵選取是希望盡量在無損於學習演算法效能的情況下,過濾掉沒有效用、不具有關鍵影響力,以及有著重複或類似鑑別能力的雜訊特徵,最後僅保留下真正對效能指標有影響的特徵,以達到降低特徵空間(feature space)維度(即,特徵數量)的目的。此舉不但能夠減少學習演算法計算時的複雜度,提高機器學習的效率,還可以進一步提升效能評估的結果,甚至增進學習模型的可解讀性與模型分析的可行性。舉例來說,文件分類通常使用字詞作為分類的特徵,而其效能評估指標則為分類結果的準確度。在此,文件分類的特徵選取便是刪除對於分類準確度沒有影響的字詞特徵。特徵選取的過程包含:特徵子集的生成(subset generation)、特徵子集的效能評估(subset evaluation)、停止條件的測試(stopping criterion),以及結果驗證(result validation)等四個要件。整個流程原則上乃重複地依序進行前面三項步驟,直到停止條件成立而終止。此時的特徵子集即為選取方法所決定的最佳子集,最後使用驗證程序來測試特徵子集的效用。一般來說,若要挑選出最佳的特徵子集,唯有透過暴力法(brute force)進行全面性徹底的搜尋(exhaustive search)。然而,此種方法在有限的時間與運算資源限制的情況下並不可行。過去的研究提出許多用來選取「近似最佳特徵子集」的方法,大致上可分為包裝器(wrapper)與過濾器(filter)兩大類。如圖1(a)所示,前者依據學習演算法的效能指標評估學習結果,藉由搜尋的策略逐一將能夠提高效能指標數值的特徵納入特徵子集合。常見的包裝器特徵選取方法,包括:循序向前選取法(sequential forward selection,簡稱SFS)、循序向後選擇法(sequential backward selection,簡稱SBS),以及結合前述兩種方法的浮點搜尋法(floating search method,簡稱FSM)。過濾器特徵選取方式,如圖1(b)所示,與包裝器特徵選取方法類似,都是運用搜尋的機制來找到適當的特徵子集。然而,其使用不同於學習演算法效能評估的指標,例如:關聯程度(correlation)、共同資訊量(mutual information),以及熵(entropy)等統計或資訊理論指標,透過間接衡量資料自身特性的方法來評斷是否為重要特徵。整體來說,包裝器的特徵選取方法通常需要較多的計算量,且容易導致學習模型過適(overfitting)的結果,但其在搜尋有效的特徵子集上表現較佳。相反地,過濾器的特徵選取方法雖然所需計算量較少,因其使用相異於學習演算法效能評估的指標,使得產生的特徵子集品質較差,且其所需處理的資料量也較高。雖說如此,前述兩種特徵選取方法並沒有誰好誰壞之分,應用的選擇仍需視實際狀況來決定。 圖1(a):包裝器特徵選取流程 圖1(b):過濾器特徵選取流程特別說明的是,在圖書資訊學的領域當中,特徵選取經常使用於資訊檢索,或是文件分群與分類的研究上。一般來說,這幾類研究領域通常以字詞特徵來組成文件的表示法(document representation)。可想而知,從文件資料集中萃取出來的字詞特徵數量必然相當龐大。再者,使用字詞特徵時,其特徵量化的方法多半採用TF-IDF詞頻的計算原則,經常使得文件表示式中存在大量特徵值可能是零的現象發生,即所謂的特徵值稀疏性(sparsity)問題。此時,若是經由前面介紹的特徵選取法則進行前置處理,就可以過濾去除大多數無效或較無鑑別能力的字詞特徵,同時解決特徵值稀疏性的問題,可大幅增進文件處理的效率及提高評估結果的效能。Dash, M., & Liu, H. (1997). Feature selection for classification. Intelligent Data Analysis, 1(1-4), 131-156.Liu, H., & Motoda, H. (1998). Feature extraction, construction and selection: A data mining perspective. Norwell, MA: Kluwer Academic Publishers.Liu, H., & Motoda, H. (1998). Feature selection for knowledge discovery and data mining. Norwell, MA: Kluwer Academic Publishers. |
|
參考資料: Dash, M., & Liu, H. (1997). Feature selection for classification. Intelligent Data Analysis, 1(1-4), 131-156.Liu, H., & Motoda, H. (1998). Feature extraction, construction and selection: A data mining perspective. Norwell, MA: Kluwer Academic Publishers.Liu, H., & Motoda, H. (1998). Feature selection for knowledge discovery and data mining. Norwell, MA: Kluwer Academic Publishers. |
|
資料來源: | 國家教育研究院_特徵選取 |
授權資訊: | 資料採「 創用CC-姓名標示- 禁止改作 臺灣3.0版授權條款」釋出 |
貓頭鷹博士