跳到主要內容
:::

教育百科logo

::: 網路檢索與探勘 - 教育百科
國家教育研究院辭書
基本資料
英文: web retrieval and mining
作者: 葉鎮源
日期: 2012年10月
出處: 圖書館學與資訊科學大辭典
辭書內容
名詞解釋:
一般而言,網路檢索系統主要是由網頁搜爬(crawling)、網頁索引(indexing)、網頁檢索(querying),以及網頁排序(ranking)等四個子系統所組成,如圖 1所示。(1)網頁搜爬:藉由網頁爬蟲(web crawler)定期至各個網站下載、蒐集網頁資訊,並儲存在自身的資料庫中作為日後搜尋的資料來源;(2)網頁索引:將網頁爬蟲搜爬回來的網頁,經過文件解析後建立索引(index)結構,例如:反向索引(inverted index),以提供未來檢索時快速、即時比對使用;(3)網頁檢索:比對使用者輸入的查詢關鍵字與自身的索引資料庫,搜尋出所有包含查詢關鍵字的網頁,作為符合使用者查詢條件的候選網頁集合;(4)網頁排序:計算網頁與查詢關鍵字的關聯性及個別網頁的重要性,對於網頁檢索模組所取得的網頁集合進行排序,據以將最相關且可靠度高、重要的網頁呈現在回傳給使用者的查詢結果頂端。圖1: 網路搜尋引擎的架構資料來源:Web retrieval and mining, In Encyclopedia of Library and Information Science (3rd ed.) (pp. 5616-5622), by Castillo, C., & Baeza-Yates, R., 2009, M. J. Bates & M. N. Maack (Eds.),. Boca Raton, FL: CRC Press. 特別一提的是:雖說網路檢索是資訊檢索的應用,但是比起資訊檢索而言更有挑戰性。根據Google在2008年公佈的資料顯示,全球資訊網的網頁數量已高達1,000,000,000,000以上(註:目前無人確切知道所有網頁的數量,該數字乃是Google搜尋引擎的索引數量。然而在2008年之後,Google已不再對外公開其搜尋引擎的索引數量。);這個數字遠較一般資訊檢索所要搜尋的文件資料庫數量來得龐大,使得檢索的效能和反應時間成為網路檢索的首要考量。其次,比起資訊檢索處理的文件來說,網頁的結構較為複雜;除擁有超連結之外,同時運用標籤(tag)定義網頁區塊成為半結構化的文件,例如:標題(title)、描述欄位(metadata)、內容主體(body),讓網路檢索對於網頁解析與索引建構的難度大幅提昇。最後,全球資訊網中充斥著許多的垃圾網頁(spam)。因此,網路檢索系統必須透過排序機制,將垃圾網頁排列在查詢結果的後端,以提高查詢結果的品質。網路探勘(web mining)乃指利用資料探勘(data mining)技術,從網路資料中進行分析、發現及挖掘出具有價值之資訊及知識的過程與方法。網路探勘與資料探勘最大的差異在於探勘時所分析的資料類型不同:前者探勘的對象的是網頁超連結結構(web hyperlink structure)、網頁內容(page content),以及網站使用記錄(usage data)等資料;後者則是資料倉儲或資料庫中的關聯表格資料。根據探勘過程中所需資料類型的不同,網路探勘大致上可區分成網頁結構探勘(web structure mining)、網頁內容探勘(web content mining),以及網站使用行為探勘(web usage mining),簡述如下:(1)網頁結構探勘:主要分析網頁間的超連結結構與關聯,可由社會網路分析(social network analysis)與共被引分析(co-citation analysis)等方法,發掘找出網頁的重要性或個別網頁與其他網頁間的關聯性。舉例來說,PageRank與HITS(hyperlink-indeced topic search)皆是利用網頁超連結結構的分析找出重要的網頁,作為搜尋引擎查詢結果排序的依據;(2)網頁內容探勘:主要從網頁內容中擷取或挖掘有用的知識。例如:依據網頁內容的主題,可以將網頁進行分類或是將相關主題的網頁進行分群。另外,分析商業網站的產品介紹或是討論區等網頁內容,可以探勘得知網路使用者對於某商品的評價或是討論主題的意見;(3)網站使用行為探勘:主要利用網站中使用者與網站互動的紀錄檔進行分析,從而發掘出使用者瀏覽網站的行為模式。比如說分析使用者的瀏覽路徑,可作為網站內容結構改善或是個人化服務提供的依據。Castillo, C., & Baeza-Yates, R. (2009). Web retrieval and mining. In M. J. Bates & M. N. Maack (Eds.), Encyclopedia of Library and Information Sciences (3rd ed.) (pp. 5615-5622). Boca Raton, FL: CRC Press.Cooley, R., Mobasher, B., & Srivastava, J. (1997). Web mining: information and pattern discovery on the world wide web. Proceedings of the 9th IEEE International Conference on Tools with Artifical Intelligence, 558-567.Liu, B. (2011). Web data mining: exploring hyperlinks, contents, and usage data (2nd ed.). Heidelberg, Germany: Springer.
參考資料:
Castillo, C., & Baeza-Yates, R. (2009). Web retrieval and mining. In M. J. Bates & M. N. Maack (Eds.), Encyclopedia of Library and Information Sciences (3rd ed.) (pp. 5615-5622). Boca Raton, FL: CRC Press.Cooley, R., Mobasher, B., & Srivastava, J. (1997). Web mining: information and pattern discovery on the world wide web. Proceedings of the 9th IEEE International Conference on Tools with Artifical Intelligence, 558-567.Liu, B. (2011). Web data mining: exploring hyperlinks, contents, and usage data (2nd ed.). Heidelberg, Germany: Springer.
資料來源: 國家教育研究院_網路檢索與探勘
授權資訊: 資料採「 創用CC-姓名標示- 禁止改作 臺灣3.0版授權條款」釋出
回到頁面頂端圖示