淺談互聯(lián)網(wǎng)信息挖掘技術(shù)
-
騰虎網(wǎng)絡(luò):2010-03-24 閱讀數(shù): 分享到:
摘 要 本文就互聯(lián)網(wǎng)信息挖掘技術(shù)進行了簡介,對網(wǎng)絡(luò)信息挖掘中的關(guān)鍵技術(shù)、系統(tǒng)流程進行了闡述,結(jié)合農(nóng)業(yè)網(wǎng)絡(luò)信息挖掘系統(tǒng)的開發(fā)及應(yīng)用,指出網(wǎng)絡(luò)信息挖掘的應(yīng)用前景。關(guān)鍵詞 數(shù)據(jù)挖掘 互聯(lián)網(wǎng) 網(wǎng)頁 信息提取 About the WDM Technology Zhang Chengzhi (Department of Information Management,Nanjing Agriculturl University,Nanjing 210095)Abstract This paper introduces the WEB Data Mining (WDM) expoundes the key technology,the system process of the WDM,then use the Agricultural WEB Data Mining (AWDM) as a example,declare that the WDM has good foreground in the practice.Keywords Data Mining, Internet,WEB pages,Information Extration一、概 述隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越豐富的信息呈現(xiàn)在用戶面前,但同時伴隨的問題是用戶越來越難以獲得其更需要的信息。早期為了解決此問題,出現(xiàn)了以雅虎( Yahoo)為代表的 半自動化的網(wǎng)絡(luò) 搜索引擎(Search Engine)。網(wǎng)絡(luò)搜索引擎主要由網(wǎng)絡(luò)機器人(Robot)、索引數(shù)據(jù)庫和查詢服務(wù)三個部分組成[1]。網(wǎng)絡(luò)機器人對互聯(lián)網(wǎng)資源進行遍歷,盡可能多地發(fā)現(xiàn)并采集新的信息;采用全文檢索技術(shù)對采集到的信息建立索引存到索引數(shù)據(jù)庫中,能夠極大地提高信息檢索的速度;查詢服務(wù)接收并分析用戶的查詢,即將用戶查詢作為數(shù)據(jù)庫提問式,根據(jù)一定的的匹配策略,如布爾模型、模糊布爾模型等方法遍歷索引數(shù)據(jù)庫,更后將達到一定的匹配程度的結(jié)果(包括標題項,簡單文摘和鏈接地址)集合返回給用戶。由于人工智能研究還未達到實用化水平,目前網(wǎng)絡(luò)機器人還無法實現(xiàn)信息的準確分類,使得檢索的結(jié)果不盡人意,例如,某一用戶利用“棉花種植”進行檢索時,其本意是想得到有關(guān)棉花種植的地區(qū)分布情況的資料,但搜索引擎大多是返回大量的關(guān)于棉花種植技術(shù)的文章,造成這樣情況的原因是現(xiàn)有的搜索引擎大多是基于簡單的關(guān)鍵詞匹配,不能真正理解用戶的檢索意圖所造成的。另外,目前多數(shù)搜索站點都是通過人工方式對信息進行再一次處理,這樣使得信息整理的速度遠遠落后于網(wǎng)絡(luò)信息的膨脹。為了實現(xiàn)個性化的主動信息服務(wù),網(wǎng)絡(luò)信息挖掘(Web Mining)技術(shù)成為近年來的一個新的研究課題,它是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息處理中的應(yīng)用[2]。網(wǎng)絡(luò)信息挖掘是指在大量訓(xùn)練樣本的基礎(chǔ)上,得到數(shù)據(jù)對象間的內(nèi)在特征,并以此為依據(jù)進行有目的的信息提取。例如,當(dāng)信息挖掘系統(tǒng)系統(tǒng)發(fā)現(xiàn)用戶的興趣是“棉花種植分布”時,它就會自動過濾掉棉花種植技術(shù)等無關(guān)的數(shù)據(jù),這樣可以大大減少用戶的檢索時間和成本。網(wǎng)絡(luò)信息挖掘與網(wǎng)絡(luò)信息檢索所采用的技術(shù)有很多相似之處,但也有本質(zhì)的區(qū)別。網(wǎng)絡(luò)信息挖掘技術(shù)沿用了Robot,全文檢索等網(wǎng)絡(luò)信息檢索中的優(yōu)秀成果,同時綜合運用人工智能、模式識別、神經(jīng)網(wǎng)絡(luò)領(lǐng)域的各種技術(shù)。網(wǎng)絡(luò)信息挖掘系統(tǒng)與網(wǎng)絡(luò)信息檢索的更大不同在于它能夠獲取用戶個性化的信息需求,根據(jù)目標特征信息在網(wǎng)絡(luò)上或者信息庫中進行有目的的信息搜尋。本文就網(wǎng)絡(luò)信息挖掘技術(shù)的總體流程、技術(shù)實現(xiàn)進行了闡述,指出網(wǎng)絡(luò)信息挖掘農(nóng)業(yè)信息領(lǐng)域中的應(yīng)用的可行性及其發(fā)展前景。二、網(wǎng)絡(luò)信息挖掘技術(shù)中的關(guān)鍵技術(shù)及系統(tǒng)流程1.網(wǎng)絡(luò)信息挖掘中的關(guān)鍵技術(shù)(1)目標樣本的特征提取網(wǎng)絡(luò)信息挖掘系統(tǒng)采用向量空間模型(Vector Space Modal,VSM),用特征詞條(T1,T2,…,Tn)及其權(quán)值Wi代表目標信息,在進行信息匹配時,使用這些特征項評價未知文本與目標樣本的相關(guān)程度。特征詞條及其權(quán)值的選取稱為目標樣本的特征提取,特征提取算法的優(yōu)劣將直接影響到系統(tǒng)的運行效果。詞條在不同內(nèi)容的文檔中所呈現(xiàn)出的頻率分布是不同的,因此可以根據(jù)詞條的頻率特性進行特征提取和權(quán)重評價。一個有效的特征項集應(yīng)該既能體現(xiàn)目標內(nèi)容,也能將目標同其它文檔相區(qū)分,因此詞條權(quán)重的正比于詞條的文檔內(nèi)頻數(shù),反比于訓(xùn)練文本內(nèi)出現(xiàn)該詞條的文檔頻數(shù)。構(gòu)造如下特征項權(quán)值評價函數(shù):Weight(word)= tfik*IDFi= tfik*log(N/nk+1)其中tfik表示詞條Tk在文檔Di中的出現(xiàn)頻數(shù),IDFi為逆文檔頻數(shù),N表示全部目標樣本的文檔數(shù),nk表示出現(xiàn)詞條Tk的文檔數(shù)。若考慮詞長因素,可進行標準化處理可得:Weight(word)=tfik*log(N/nk+1)/ 與普通的文本文件相比,HTML文檔中有明顯的標識符,結(jié)構(gòu)信息更加明顯,對象的屬性更為豐富。系統(tǒng)在計算特征詞條權(quán)值時,充分考慮HTML文檔的特點,對于標題和特征信息較多的文本賦予較高權(quán)重。為了提高運行效率,系統(tǒng)對特征向量進行降維處理,僅保留權(quán)值較高的詞條作為文檔的特征項,從而形成維數(shù)較低的目標特征向量。(2)中文分詞處理英文的句子以空格作為固定的分隔符,而中文中沒有,這給中文信息處理帶來很大障礙,例如計算機無法區(qū)分“球拍買了”到底是“球拍,買了”,還是“球,拍賣了”,因此在進行詞頻統(tǒng)計等處理前先要進行詞條切分處理。比較簡單有效的分詞方法是基于大型詞庫的機器分詞法。通用詞庫包含了大量不會成為特征項的常用詞匯,為了提高系統(tǒng)運行效率,系統(tǒng)根據(jù)挖掘目標建立專業(yè)的分詞表,這樣可以在保證特征提取準確性的前提下,顯著提高系統(tǒng)的運行效率。進行詞條切分時,先根據(jù)標點進行粗切分,然后再分別使用正向和逆向更大匹配法進行細切分。在進行詞頻統(tǒng)計時,考慮到自然語言的多樣性,系統(tǒng)建立并使用相應(yīng)的同義詞典、相關(guān)詞詞典等輔助詞典,以提高信息匹配的準確度。(3)獲取網(wǎng)絡(luò)中的動態(tài)信息Robot是傳統(tǒng)搜索引擎的重要組成部分,它依照HTTP協(xié)議讀取Web頁面并根據(jù)HTML文檔中的超鏈在WWW上進行自動漫游,Robot也被稱為Spider、Worm或Crawler。但Robot只能獲取Web上的靜態(tài)頁面,而有價值的信息往往存放在網(wǎng)絡(luò)數(shù)據(jù)庫中,人們無法通過搜索引擎獲取這些數(shù)據(jù),只能登錄專業(yè)信息網(wǎng)站,利用網(wǎng)站提供的查詢接口提交查詢請求,獲取并瀏覽系統(tǒng)生成的動態(tài)頁面。網(wǎng)絡(luò)信息挖掘系統(tǒng)則通過網(wǎng)站提供的查詢接口對網(wǎng)絡(luò)數(shù)據(jù)庫中的信息進行遍歷,并根據(jù)專業(yè)知識庫對遍歷的結(jié)果進行自動的分析整理,更后導(dǎo)入本地的信息庫。2.網(wǎng)絡(luò)信息挖掘技術(shù)實現(xiàn)流程圖1給出了網(wǎng)絡(luò)信息挖掘技術(shù)實現(xiàn)的總體流程圖,分別對其中的每個步驟解釋如下:第一步:確立目標樣本,即由用戶選擇目標文本,作為提取用戶的特征信息;第二步:提取特征信息,即根據(jù)目標樣本的詞頻分布,從統(tǒng)計詞典中提取出挖掘目標的特征向量并計算出相應(yīng)的權(quán)值;第三步:網(wǎng)絡(luò)信息獲取,即先利用搜索引擎站點選擇待采集站點,再利用Robot程序采集靜態(tài)Web頁面,更后獲取被訪問站點網(wǎng)絡(luò)數(shù)據(jù)庫中的動態(tài)信息,生成WWW資源索引庫;第四步:信息特征匹配,即提取索引庫中的源信息的特征向量,并與目標樣本的特征向量進行匹配,將符合閾值條件的信息返回給用戶。三、網(wǎng)絡(luò)信息挖掘技術(shù)的應(yīng)用前景互聯(lián)網(wǎng)為用戶提供了豐富的資源,但沒有一個很好的信息挖掘工具是很難以獲取其中的有用信息的。筆者以網(wǎng)絡(luò)信息挖掘技術(shù)在農(nóng)業(yè)信息領(lǐng)域中的應(yīng)用為例進行簡單說明。隨著我國電信事業(yè)的進一步發(fā)展,網(wǎng)絡(luò)信息也正在加倍增長,特別地,農(nóng)業(yè)是我國第一大產(chǎn)業(yè),農(nóng)業(yè)的信息化必然要求我們要建立一個農(nóng)業(yè)領(lǐng)域內(nèi)的信息挖掘系統(tǒng),以滿足各層次用戶對農(nóng)業(yè)信息的需求。構(gòu)建一個農(nóng)業(yè)網(wǎng)絡(luò)信息挖掘系統(tǒng),應(yīng)以現(xiàn)有的成熟理論為基礎(chǔ),結(jié)合當(dāng)前WWW農(nóng)業(yè)信息資源的分布特色來逐步完成,可以將統(tǒng)計詞典細分為農(nóng)業(yè)基礎(chǔ)科學(xué)、農(nóng)業(yè)工程、農(nóng)學(xué)、植物保護、農(nóng)作物、園藝、林業(yè)、畜牧、水產(chǎn)、漁業(yè)等幾個專業(yè)詞典。這樣有利于提高匹配時的準確度,從而提高檢索的準確率。在系統(tǒng)的構(gòu)建過程中,涉及到三個比較關(guān)鍵的問題,分別闡述如下:1. 目標樣本確定中問題用戶特征信息的提取來源于其所瀏覽的網(wǎng)絡(luò)資源(一般是HTML文本),將用戶瀏過的網(wǎng)頁提交給服務(wù)器,以此作為用戶的目標樣本,目標樣本的數(shù)量以50條為宜,過少會因為提取的關(guān)鍵詞過于稀疏而不足以表達用戶的特征興趣,若過多,會增加系統(tǒng)開銷,需要較長的運算時間。在用戶特征信息提取算法中,衡量詞條的權(quán)重,我們主要考慮詞頻(tfik)、逆文檔頻數(shù)(IDFi)以及位置因素。為了提高關(guān)鍵詞的特征表達能力,我們還可以進一步考慮詞長、詞的分布性作為權(quán)重衡量因素。一般說來,詞長較長的詞能表達較為專指的概念,如“農(nóng)作物栽培”要專指于“農(nóng)作物”,相應(yīng)的,要給“農(nóng)作物栽培”較高的權(quán)重。詞的分布性是指詞在某一個文本中分布的情況,某一詞A非停用詞)在文章中每個段落都出現(xiàn),而另外一個詞B出現(xiàn)在其中一個段落中,就認為A比B更具有特征表達能力,因此給A賦予較高的權(quán)重。2. 統(tǒng)計詞典的構(gòu)造問題用戶特征信息的提取和互聯(lián)網(wǎng)信息的自動索引都要涉及到分詞的問題。分詞效果的優(yōu)劣與分詞算法和分詞中所用到的統(tǒng)計詞典有很大關(guān)系。本系統(tǒng)中的中文分詞處理模塊中采用“更長匹配法”(MM匹配法)作為分詞算法,用到的統(tǒng)計詞典主要由關(guān)鍵詞詞典、同義詞詞典、相關(guān)詞詞典。其中關(guān)鍵詞詞典中的數(shù)據(jù)主要來自《中國圖書館分類法》(第四版)、《中國分類主題詞表》、《農(nóng)業(yè)專業(yè)分類表》、《中文MARC》中的S類數(shù)據(jù)、《中文科技期刊數(shù)據(jù)庫》中的S類數(shù)據(jù)。數(shù)據(jù)的具體處理過程由于篇幅所限,將另文介紹。同義詞詞典的數(shù)據(jù)主要根據(jù)以上的數(shù)據(jù)資源和《同義詞詞林》來構(gòu)造。在處理用戶查詢和文本分類等問題時,同義詞詞典會顯示很大的作用。相關(guān)詞詞典由上下位類詞(如植物檢驗與果實檢驗)和蘊涵關(guān)系詞(如嫁接與矮化砧木、嫁接苗、接穗、橋接、中間砧、砧木、嫁接親和性等詞的關(guān)系)組成。此詞典的構(gòu)造可由以上的數(shù)據(jù)資源及基于詞共現(xiàn)的統(tǒng)計算法來確定。農(nóng)業(yè)網(wǎng)絡(luò)信息挖掘系統(tǒng)的設(shè)計中還應(yīng)考慮到對用戶興趣的挖掘,如發(fā)現(xiàn)某一用戶的檢索生成的特征向量中包含“蘆薈、種植”,則挖掘系統(tǒng)通過學(xué)習(xí)后應(yīng)能加大特征項“蘆薈、種植”的權(quán)重,并且利用反饋機制(user feed-back)實現(xiàn)數(shù)據(jù)的及時推送(Push)。此外可以通過群體用戶的興趣挖掘更深的知識,如發(fā)現(xiàn)某一地區(qū)的許多用戶檢索時生成的特征向量中有“蘆薈”,則可推斷這個地區(qū)可能存在需求蘆薈這一現(xiàn)象,以此為依據(jù),挖掘系統(tǒng)可以分析處蘆薈市場的地區(qū)需求情況,從而為蘆薈的流通提供一定的科學(xué)依據(jù)。當(dāng)前,在人工智能等技術(shù)等發(fā)展還不成熟,利用統(tǒng)計數(shù)學(xué)模型來構(gòu)建一個農(nóng)業(yè)信息網(wǎng)絡(luò)挖掘系統(tǒng)具有一定的啟發(fā)意義,該系統(tǒng)的各部分還有待于進一步改進與提高。參 考 文 獻1. Gudivada V N.Information retrieval on the World Wide Web.IEEE Internet Computing,11997,1(5):58~682. 李水平.?dāng)?shù)據(jù)采掘技術(shù)回顧.小型微型計算機系統(tǒng),1998,19(4):74~81