網路檢索與探勘 - 教育百科 | 教育雲線上字典

:::

::: 網路檢索與探勘 - 教育百科

網
路
檢
索
與
探
勘

國家教育研究院辭書

國家教育研究院辭書

基本資料

英文：	web retrieval and mining
作者：	葉鎮源
日期：	2012年10月
出處：	圖書館學與資訊科學大辭典

辭書內容

名詞解釋：一般而言，網路檢索系統主要是由網頁搜爬（crawling）、網頁索引（indexing）、網頁檢索（querying），以及網頁排序（ranking）等四個子系統所組成，如圖 1所示。（1）網頁搜爬：藉由網頁爬蟲（web crawler）定期至各個網站下載、蒐集網頁資訊，並儲存在自身的資料庫中作為日後搜尋的資料來源；（2）網頁索引：將網頁爬蟲搜爬回來的網頁，經過文件解析後建立索引（index）結構，例如：反向索引（inverted index），以提供未來檢索時快速、即時比對使用；（3）網頁檢索：比對使用者輸入的查詢關鍵字與自身的索引資料庫，搜尋出所有包含查詢關鍵字的網頁，作為符合使用者查詢條件的候選網頁集合；（4）網頁排序：計算網頁與查詢關鍵字的關聯性及個別網頁的重要性，對於網頁檢索模組所取得的網頁集合進行排序，據以將最相關且可靠度高、重要的網頁呈現在回傳給使用者的查詢結果頂端。圖1: 網路搜尋引擎的架構資料來源：Web retrieval and mining, In Encyclopedia of Library and Information Science (3rd ed.) (pp. 5616-5622), by Castillo, C., & Baeza-Yates, R., 2009, M. J. Bates & M. N. Maack (Eds.),. Boca Raton, FL: CRC Press.　特別一提的是：雖說網路檢索是資訊檢索的應用，但是比起資訊檢索而言更有挑戰性。根據Google在2008年公佈的資料顯示，全球資訊網的網頁數量已高達1,000,000,000,000以上（註：目前無人確切知道所有網頁的數量，該數字乃是Google搜尋引擎的索引數量。然而在2008年之後，Google已不再對外公開其搜尋引擎的索引數量。）；這個數字遠較一般資訊檢索所要搜尋的文件資料庫數量來得龐大，使得檢索的效能和反應時間成為網路檢索的首要考量。其次，比起資訊檢索處理的文件來說，網頁的結構較為複雜；除擁有超連結之外，同時運用標籤（tag）定義網頁區塊成為半結構化的文件，例如：標題（title）、描述欄位（metadata）、內容主體（body），讓網路檢索對於網頁解析與索引建構的難度大幅提昇。最後，全球資訊網中充斥著許多的垃圾網頁（spam）。因此，網路檢索系統必須透過排序機制，將垃圾網頁排列在查詢結果的後端，以提高查詢結果的品質。網路探勘（web mining）乃指利用資料探勘（data mining）技術，從網路資料中進行分析、發現及挖掘出具有價值之資訊及知識的過程與方法。網路探勘與資料探勘最大的差異在於探勘時所分析的資料類型不同：前者探勘的對象的是網頁超連結結構（web hyperlink structure）、網頁內容（page content），以及網站使用記錄（usage data）等資料；後者則是資料倉儲或資料庫中的關聯表格資料。根據探勘過程中所需資料類型的不同，網路探勘大致上可區分成網頁結構探勘（web structure mining）、網頁內容探勘（web content mining），以及網站使用行為探勘（web usage mining），簡述如下：（1）網頁結構探勘：主要分析網頁間的超連結結構與關聯，可由社會網路分析（social network analysis）與共被引分析（co-citation analysis）等方法，發掘找出網頁的重要性或個別網頁與其他網頁間的關聯性。舉例來說，PageRank與HITS（hyperlink-indeced topic search）皆是利用網頁超連結結構的分析找出重要的網頁，作為搜尋引擎查詢結果排序的依據；（2）網頁內容探勘：主要從網頁內容中擷取或挖掘有用的知識。例如：依據網頁內容的主題，可以將網頁進行分類或是將相關主題的網頁進行分群。另外，分析商業網站的產品介紹或是討論區等網頁內容，可以探勘得知網路使用者對於某商品的評價或是討論主題的意見；（3）網站使用行為探勘：主要利用網站中使用者與網站互動的紀錄檔進行分析，從而發掘出使用者瀏覽網站的行為模式。比如說分析使用者的瀏覽路徑，可作為網站內容結構改善或是個人化服務提供的依據。Castillo, C., & Baeza-Yates, R. (2009). Web retrieval and mining. In M. J. Bates & M. N. Maack (Eds.), Encyclopedia of Library and Information Sciences (3rd ed.) (pp. 5615-5622). Boca Raton, FL: CRC Press.Cooley, R., Mobasher, B., & Srivastava, J. (1997). Web mining: information and pattern discovery on the world wide web. Proceedings of the 9th IEEE International Conference on Tools with Artifical Intelligence, 558-567.Liu, B. (2011). Web data mining: exploring hyperlinks, contents, and usage data (2nd ed.). Heidelberg, Germany: Springer.
參考資料： Castillo, C., & Baeza-Yates, R. (2009). Web retrieval and mining. In M. J. Bates & M. N. Maack (Eds.), Encyclopedia of Library and Information Sciences (3rd ed.) (pp. 5615-5622). Boca Raton, FL: CRC Press.Cooley, R., Mobasher, B., & Srivastava, J. (1997). Web mining: information and pattern discovery on the world wide web. Proceedings of the 9th IEEE International Conference on Tools with Artifical Intelligence, 558-567.Liu, B. (2011). Web data mining: exploring hyperlinks, contents, and usage data (2nd ed.). Heidelberg, Germany: Springer.
資料來源：	國家教育研究院_網路檢索與探勘
授權資訊：	資料採「創用CC-姓名標示- 禁止改作臺灣3.0版授權條款」釋出

詞條功能

推薦關聯詞