國內(nèi)外FTP搜索引擎的分析與比較
-
騰虎網(wǎng)絡(luò):2010-03-24 閱讀數(shù): 分享到:
摘要 當(dāng)針對HTML網(wǎng)頁信息的搜索引擎紅紅火火的時候,另一種搜索引擎也越來越受到人們的歡迎,它就是基于Web的FTP文件搜索引擎。盡管目前相對WWW搜索引擎而言,F(xiàn)TP搜索引擎數(shù)目不多,技術(shù)上也不很成熟,但它的用戶量正在上升,越來越受到重視。本文統(tǒng)計研究了當(dāng)前國際和國內(nèi)著名的FTP搜索引擎,從功能、數(shù)量、速度等方面進行了分析與比較,描述了FTP搜索引擎的現(xiàn)狀并探討FTP搜索引擎的發(fā)展趨勢! £P(guān)鍵字 FTP搜索引擎 天網(wǎng)搜索 信息查找 文件搜索1、 引言 在因特網(wǎng)上存在著、流動著各種各樣的信息,例如email信息、BBS信息、OICQ信息、被HTTP服務(wù)器管理的HTML網(wǎng)頁,還有被FTP服務(wù)器管理的各種類型的文件。后者是本文關(guān)心的對象,它們的典型代表是各種學(xué)術(shù)和技術(shù)文件、計算機軟件、多媒體數(shù)據(jù)。多數(shù)FTP服務(wù)器都開辟有一個公共訪問區(qū),稱為匿名FTP,對公眾提供免費的文件信息服務(wù)。FTP搜索引擎的功能是搜集匿名FTP服務(wù)器提供的目錄列表,對用戶提供文件信息的查詢服務(wù)。由于FTP搜索引擎是專門針對各種文件的,因而相對WWW搜索引擎,尋找軟件、圖像、電影和音樂等文件使用FTP搜索引擎將更加方便直接! 「绲腇TP搜索引擎是基于文本顯示的Archie。Archie實際上是一個大型的數(shù)據(jù)庫,再加上與這個大型數(shù)據(jù)庫相關(guān)聯(lián)的一套檢索方法。該數(shù)據(jù)庫中包括大量可通過FTP下載的文件資源的有關(guān)信息,包括這些資源的文件名、文件長度、存放該文件的計算機名及目錄名等?梢酝ㄟ^遠(yuǎn)程登錄到Archie主機來使用Archie服務(wù)器,用Archie作為登錄名。一旦登錄成功,一個Archie程序?qū)⒆詣訄?zhí)行,這時一次輸入一條命令,告訴Archie想查尋的內(nèi)容,Archie將檢索自己的數(shù)據(jù)庫并顯示檢索的結(jié)果。如果用戶對自己想要的東西并不太清楚,Archie還提供whatis服務(wù)項目,該服務(wù)提供成千上萬個程序、數(shù)據(jù)文件和文檔的簡短說明! WW的出現(xiàn)改變了Archie在文件搜索方面的統(tǒng)治地位,在美觀、方便的WWW頁面上搜索ftp文件成為用戶的自然需求,即人們需要有一種基于Web的FTP搜索引擎。在功能上,基于Web的ftp搜索引擎與Archie基本一樣,都是對用戶提交的查詢匹配串找到可以下載的ftp站點鏈接。但基于Web的ftp搜索引擎也有很多特色的功能,比如天網(wǎng)ftp搜索引擎的文件分類功能就大大便利了用戶查找文件的過程,提高了查準(zhǔn)率;赪eb的ftp搜索引擎也采用了很多WWW搜索引擎的策略,比如使用Spider自動收集數(shù)據(jù),采用倒排索引,智能換頁鏈接技術(shù)以及大型ftp搜索引擎必須采用的分布收集和服務(wù)技術(shù)。 天網(wǎng)FTP搜索引擎是北京大學(xué)計算機系網(wǎng)絡(luò)與分布式系統(tǒng)實驗室開發(fā)的一個產(chǎn)品,目前已經(jīng)在http://bingle.pku.edu.cn上提供服務(wù),搜集文件數(shù)據(jù)量超過一千萬,每用戶訪問超過40萬次,是目前國內(nèi)規(guī)模更大的FTP搜索引擎,也是國際FTP搜索引擎中的佼佼者(試在Google查詢ftp搜索引擎!)。以下我們將天網(wǎng)FTP搜索引擎與多個著名的國內(nèi)外FTP搜索引擎進行分析比較,從而得到全球FTP搜索引擎的現(xiàn)狀并探討其發(fā)展趨勢。2、著名的國際國內(nèi)FTP搜索引擎 目前國內(nèi)外ftp搜索引擎已有不少,我們研究了許多FTP搜索引擎,列出下列比較典型和著名的FTP搜索引擎作為本文的討論對象:國外著名的FTP搜索引擎:① http://www.philes.com/號稱全球更大的FTP搜索引擎② http://www.alltheweb.com%20fastsearch.com/的產(chǎn)品,用戶有 http://www.lycos.com/http://www.ftpsearch.net/③ http://www.filesearching.comChertovy Kulichki Inc的產(chǎn)品④ http://www.souborak.com/internauci.pl的產(chǎn)品 ⑤ http://www.ftpfind.com/www.echo.fr的產(chǎn)品⑥ http://ftpsearch.laplink.com/一個很多年沒有更新數(shù)據(jù)的大型FTP搜索引擎 ⑦ http://parker.vslib.cz/作者是Technical University of Liberec Czech Republic的Jiri A. Randus,是國內(nèi)大部分小型FTP搜索引擎系統(tǒng)的原型。國內(nèi)著名的FTP搜索引擎: 北大天網(wǎng)中英文FTP搜索引擎 http://bingle.pku.edu.cn/Nosey Parker家族(以下討論中我們將取清華9#作為Nosey Parker的代表): 清華9#搜索引擎 http://166.111.136.3/南京理工一網(wǎng)打盡搜索引擎 http://bbs.njust.edu.cn/parker南京理工輕松搜之 搜索引擎 http://sesa.nju.edu.cn/cgi-bin/parker/search百合谷搜索http://clilac.fmmu.edu.cn/清華ZIXIA搜索http://search.zixia.net/Parker幻想FTP搜索 http://parker.5470.net.cn/交大思源搜索 http://search.xjtu.edu.cn/全軍基因診斷技術(shù)研究所FTP引擎http://search.igd.edu.cn/夢軒FTP搜索http://scutftp.yeah.net/中科大天狼中英文搜索引擎 http://search.ustc.edu.cn/網(wǎng)絡(luò)指南針 http://compass10.compass.edu.cn/華南理工木棉中英文搜索引擎 http://search.cnkapok.com/FTP星空搜索http://sheenk.com/ftpsearch/search.html3、搜集文件條目數(shù)據(jù)量的比較一個搜索引擎是否大型,就在于其維護的信息量是否足夠。據(jù)統(tǒng)計,全球匿名FTP服務(wù)提供的文件條目已經(jīng)超過數(shù)億,而中國國內(nèi)的匿名FTP服務(wù)也提供了幾千萬的文件。由于很多搜索引擎并沒有顯式的說明自己的數(shù)據(jù)庫究竟包含了多少個文件條目的信息,我們采用兩個通用查詢來估測搜索引擎的數(shù)據(jù)量,一個是子串查詢Winzip,代表Windows平臺常見的文件,另一個是子串查詢Linux,代表非Windows平臺文件。Ftp搜索引擎數(shù)據(jù)量的比較:搜索引擎名稱 文件條目總數(shù) 站點數(shù)量 子串查詢Winzip 子串查詢Linux 天網(wǎng)FTP搜索引擎 13,000,000 46065 1943 32,479 www.philes.com 209,698,206 沒有統(tǒng)計 2249 超過24,000 www.alltheweb.com 沒有統(tǒng)計 沒有統(tǒng)計 1700 68,000 www.filesearching.com 76,039,149 沒有統(tǒng)計 超過2000 超過2,000 www.souborak.com 18,216,064 2388 超過1000 超過1,000 www.ftpfind.com 沒有統(tǒng)計 沒有統(tǒng)計 3200 超過20,000 ftpsearch.laplink.com 37,813,040 2,683 898 超過10,000 清華9# Nosey Parker 沒有統(tǒng)計 沒有統(tǒng)計 250 22,875 中科大天狼搜索 沒有統(tǒng)計 沒有統(tǒng)計 63 8,280 網(wǎng)絡(luò)指南針 沒有統(tǒng)計 沒有統(tǒng)計 39 9,965 華南木棉搜索 沒有統(tǒng)計 沒有統(tǒng)計 209 136,076 星空搜索 沒有統(tǒng)計 沒有統(tǒng)計 2274 60,027 從以上統(tǒng)計信息可以看出,國外大型FTP搜索引擎數(shù)據(jù)鏈一般都達到千萬條目以上,而國內(nèi)FTP搜索引擎中,只有北大天網(wǎng)搜索、清華9#、華南木棉、星空搜索可能達到了這個量級,其中又以天網(wǎng)搜索星空搜索文件數(shù)量更大,而華南木棉包含了HTTP和FTP兩個協(xié)議的文件,因而文件數(shù)目也很大。4、FTP搜索引擎功能選項比較搜索引擎是否吸引用戶,光看數(shù)據(jù)量是不夠的,因為即使在同樣的數(shù)據(jù)量下,各個搜索引擎可以實現(xiàn)的數(shù)據(jù)挖掘結(jié)果各有區(qū)別,而這個就很大程度上影響了用戶找到需要的文件。早期的Archie就已經(jīng)提供了很多搜索功能和選項,后來的FTP搜索引擎很大程度上都是模仿了Archie,這些功能或選項包括:a、 支持*,?等與或操作符b、 支持多種查詢模式,如是否大小寫區(qū)分,是否子串匹配或精確查詢等 c、 支持文件時間、文件大小、更后修改時間等過濾選項 d、 支持多頁面顯示查詢結(jié)果,常見的換頁方式有索引式和下一頁式 這些功能或選項是各種文件查詢系統(tǒng)應(yīng)該支持的基本功能,我們稱之為Ftp搜索引擎的基本功能選項。 當(dāng)今的Ftp搜索引擎技術(shù)在發(fā)展,其功能也新月異。我們考查許多Ftp搜索引擎,列出下列區(qū)別于基本功能選項的新功能,這些功能選項以其簡單方便成為一些Ftp搜索引擎的亮點,我們稱之為新興功能選項:a、 支持指定站點的站內(nèi)文件查詢 b、 支持結(jié)果排序,例如按時間、大小、站點等的排序 c、 查詢結(jié)果中的再查詢 d、 支持分類目錄,例如提供許多常用的查詢供用戶選擇 e、 支持查詢系統(tǒng)的文件分類,指在一個擴展名集內(nèi)的查詢,如查電影 f、 提供FTP站點在線與否的狀況顯示 g、 支持在線的站點登記 h、 FTP站點快照Ftp搜索引擎的基本功能選項比較:搜索引擎名稱 支持* ? 操作 多種查詢模式 時間大小過濾 結(jié)果換頁方式 天網(wǎng)FTP搜索引擎 是 否 是 Index www.philes.com 是 否 否 Index www.alltheweb.com 是 是 是 NextPage www.filesearching.com 是 否 是 NextPage www.souborak.com 是 否 否 Index www.ftpfind.com 否 是 否 NextPage ftpsearch.laplink.com 是 否 否 否 清華9# Nosey Parker 是 否 否 NextPage 中科大天狼搜索 是 是 否 否 網(wǎng)絡(luò)指南針 是 是 是 NextPage 華南木棉搜索 是 是 是 NextPage 星空搜索 使用前后綴 否 否 Index 由上表可以看出,絕大部分Ftp搜索引擎都支持我們所指的基本功能選項,其中支持 * ?操作和結(jié)果換頁是更為必要的,F(xiàn)tp搜索引擎都應(yīng)該支持這些功能。而多種查詢模式和時間大小過濾并不是特別需要,因為對于普通用戶而言,有更基本的功能選項就足夠了,而且文件名大小寫以及其時間大小并不是特別確定的,不同的軟件提供者可能在同一軟件的名字和修改時間上有些改動,用戶用目視的方式可能可以得到更多的有效結(jié)果。結(jié)果換頁方式有兩種,一種是索引式,用戶可以在結(jié)果頁面里任意挑選一頁顯示,另一種是下一頁式,用戶只能一頁一頁的向后翻才可以看到后續(xù)的結(jié)果。大部分WWW搜索引擎都是使用了索引式換頁,因為當(dāng)查詢結(jié)果有很多時,一頁一頁往下翻可能使得用戶無法跳出同一類不精確的查詢結(jié)果,而索引式換頁還可以支持用戶隨機地挑選查詢結(jié)果,比如用戶查詢*.rm,然后隨機的挑一些電影看。因此我們認(rèn)為索引式的結(jié)果換頁是一種更為先進更為方便的方式。從上表可以看出,天網(wǎng)FTP搜索引擎支持了大部分基本功能選項,結(jié)果換頁采用索引方式,因而使用起來是比較方便的。Ftp搜索引擎的新興功能選項比較(1):搜索引擎名稱 站內(nèi)查詢 結(jié)果排序 結(jié)果中查詢 分類目錄 天網(wǎng)FTP搜索引擎 是 是 是 是 www.philes.com 是 否 否 否 www.alltheweb.com 是 否 否 否 www.filesearching.com 是 否 否 否 www.souborak.com 否 否 否 否 www.ftpfind.com 是 是 否 否 ftpsearch.laplink.com 否 否 否 否 清華9# Nosey Parker 否 是 否 否 中科大天狼搜索 否 否 否 否 網(wǎng)絡(luò)指南針 否 否 否 否 華南木棉搜索 是 是 否 否 星空搜索 是 否 否 否 Ftp搜索引擎的新興功能選項比較(2):搜索引擎名稱 站內(nèi)查詢 結(jié)果排序 結(jié)果中查詢 分類目錄 天網(wǎng)FTP搜索引擎 是 是 是 否 www.philes.com 否 否 是 否 www.alltheweb.com 否 否 是 否 www.filesearching.com 是 否 否 否 www.souborak.com 否 否 是 否 www.ftpfind.com 是 否 否 是 ftpsearch.laplink.com 否 否 否 否 清華9# Nosey Parker 否 否 否 否 中科大天狼搜索 否 否 否 否 網(wǎng)絡(luò)指南針 否 否 否 否 華南木棉搜索 是 否 是 否 星空搜索 否 是 是 是 從上表可以看出,站內(nèi)查詢、結(jié)果排序、文件分類和在線站點登記已經(jīng)受到許多FTP搜索引擎的重視,而結(jié)果中查詢、分類目錄、站點在線狀況分析和站點快照等只有很少Ftp搜索引擎實現(xiàn)了,例如天網(wǎng)Ftp搜索的結(jié)果中查詢和分類目錄其他Ftp搜索引擎都沒有實現(xiàn)。在這些新興功能選項里,我們參考許多用戶的反饋和我們對天網(wǎng)Ftp搜索查詢志的分析,認(rèn)為文件分類和站點在線狀況是目前用戶更為希望能夠使用的,同時在查詢結(jié)果頁面里面的結(jié)果排序是一種更為有效的結(jié)果排序。5、FTP搜索引擎速度比較: Ftp搜索引擎的速度是十分重要的,因為搜索引擎本身的目的就是提高用戶查找信息的速度。搜索引擎的速度與系統(tǒng)底層的實現(xiàn)密切相關(guān),一般而言,如果一個搜索引擎底層的查詢是使用通用數(shù)據(jù)庫提供的查詢算法,則其查詢速度會慢很多,而如果采用WWW搜索引擎常用的倒排表索引歸并算法,則可以達到在毫秒級完成千萬文件條目的查詢?nèi)蝿?wù)。由于我們無法得到大部分Ftp搜索引擎底層究竟是使用了什么查詢算法和系統(tǒng),我們只能從外部來考查它的查詢速度,也就是搜索引擎自己顯示的它所費的查詢時間。我們用以下特別查詢來判斷搜索引擎的速度: 1、查*.txt 代表正常的擴展名查詢 2、查ab*cd 代表*操作,是一個比較費時的查詢 3、查winzip??.exe 代表?操作,是一個比較費時的查詢 4、查windows 代表正常的子串查詢 我們同時統(tǒng)計了查詢的結(jié)果數(shù)目,如果系統(tǒng)沒有提供它所費的查詢時間,我們則僅僅統(tǒng)計它的查詢結(jié)果。下表表項分別是(查詢費時、結(jié)果數(shù)目),>表示超過搜索引擎的更大結(jié)果顯示數(shù)。搜索引擎名稱 *.txt Ab*cd Winzip??.exe windows 天網(wǎng)FTP搜索引擎 234ms 46萬 172ms 1414 422ms 816 125ms 10456 www.philes.com 1030ms >4800 637ms 0 707ms 1415 1124ms >4800 www.alltheweb.com 無統(tǒng)計 65000 無統(tǒng)計8500 無統(tǒng)計1000 無統(tǒng)計51000 www.filesearching.com 無統(tǒng)計 >1000 無統(tǒng)計 15 無統(tǒng)計 >1000 無統(tǒng)計 >1000 www.souborak.com 1.453sec >1000 2.115sec 461 0.045sec >1000 1.637sec 406 www.ftpfind.com 2.082 sec26000 不支持* 不支持? 1.826 sec 3600 ftpsearch.laplink.com 拒絕查詢 拒絕查詢 拒絕查詢 49.722sec 5996 清華9# Nosey Parker 無統(tǒng)計 拒絕查詢 無統(tǒng)計 55 無統(tǒng)計 中科大天狼搜索 171.732 sec 27365 0.26sec 0 0.09 sec 17 1.975sec 1401 網(wǎng)絡(luò)指南針 無統(tǒng)計33487 無統(tǒng)計 0 無統(tǒng)計 0 無統(tǒng)計 1229 華南木棉搜索 無統(tǒng)計41585 無統(tǒng)計 0 無統(tǒng)計31 無統(tǒng)計40782 星空搜索 拒絕查詢 不支持* 不支持? 無統(tǒng)計 13003 從上表可以看出,在提供了查詢費時統(tǒng)計的所有Ftp搜索引擎里,北大天網(wǎng)Ftp搜索引擎達到了毫秒級的查詢速度,且總體而言是更快的。很多搜索引擎并沒有提供查詢費時的統(tǒng)計,我們只能假設(shè)這些搜索引擎在搜索速度上都是相等的,都屬于中上速度的搜索引擎。5、總結(jié) 從上面各個比較可以看出,天網(wǎng)FTP搜索無論在功能、速度、數(shù)據(jù)量上都是名列前茅的FTP搜索引擎,它的結(jié)果中查詢功能(是所有已知FTP搜索引擎中唯一支持結(jié)果中查詢的),分類目錄功能(在Google的中文分類目錄搜索引擎里北大天網(wǎng)排名第四,超過了國內(nèi)著名的WWW搜索引擎百渡搜索以及新浪分類目錄),文件分類查詢和在結(jié)果頁面里面的結(jié)果排序都是極有特色的,而更為重要的是,天網(wǎng)FTP搜索強大的查詢命令解析功能使得各種輸入都盡可能為用戶找到查詢結(jié)果,使得用戶使用搜索引擎更為方便,不受限制。但是,與Philes.com相比,天網(wǎng)FTP搜索的數(shù)據(jù)量太少,這個可能是國內(nèi)FTP站點大部分都是個人站點造成的。Philes.com也是一個很成功的FTP搜索引擎,它支持各種與或操作的查詢,而且查詢速度十分快,但是功能方面比較簡單,只有簡單查詢。AlltheWeb.com源自于原來的FastFtpSearch,是fastsearch.com多年來的重要產(chǎn)品,因而無論在數(shù)據(jù)量和功能上很強,而且由于它的商業(yè)開發(fā)比較早,也是少有的幾個提供商業(yè)應(yīng)用服務(wù)的FTP搜索引擎,lycos.com是它的一個主要客戶。但是AlltheWeb沒有支持很多新興的FTP搜索引擎功能,不能說不是一大缺陷。Filesearching.com和souborak.com都是非美國的FTP搜索引擎,其中filesearching.com以其大數(shù)據(jù)量和通用與或操作查詢贏得較好評價,而souborak.com則相對比較差。在國外的FTP搜索引擎中,ftpfind.com是功能更為領(lǐng)先的,它支持了包括站點快照和文件分類等新興功能,而且其數(shù)據(jù)量非常大,但速度相對比較慢,還是秒級的查詢速度。Ftpsearch.laplink.com是老FTP搜索引擎,它的數(shù)據(jù)已經(jīng)3年沒有更新,僅僅因為它曾經(jīng)存在的名氣和大的數(shù)據(jù)量我們依然分析評測了這個站點。國內(nèi)的FTP搜索引擎里,除了天網(wǎng)搜索,更值得推薦的就是星空搜索。星空搜索以其大的數(shù)據(jù)量和特色功能如站點快照、站點在線狀況等著稱,但是它對查詢串的解析功能太差,不能支持與或操作,造成很多常用查詢無法得到查詢結(jié)果。Nosey Parker家族作為更常見的FTP搜索引擎而著名,清華酒井的FTP搜索數(shù)據(jù)量也很大,但是NoseyParker速度并不快,而且不支持各種新興功能,它的下一頁換頁方式不是很方便。值得注意的是NoseyParker家族里面的夢軒FTP搜索已經(jīng)對NoseyParker進行了很大的改進,增加了許多新興功能,使用起來還是很方便的。與天網(wǎng)搜索同屬于教育界科研項目的有華南木棉搜索引擎、網(wǎng)絡(luò)指南針以及比較新的中科大天狼搜索引擎。 這些搜索引擎中以華南木棉使用起來更為方便,它支持文件分類和排序以及傳統(tǒng)FTP搜索引擎支持的各種與或操作符,但是它的數(shù)據(jù)量比較小,很大部分的文件信息來自于互聯(lián)網(wǎng)網(wǎng)頁而不是FTP,查詢時命中率并不是想象中的那么高。網(wǎng)絡(luò)指南針和中科大天狼都沒有支持新興功能,但網(wǎng)絡(luò)指南針用起來比中科大天狼方便,因為天狼搜索由于其不支持結(jié)果換頁使得可用性大大降低。但是天狼搜索查詢高速度卻很高,達到了毫秒級,估計是使用了比較好的索引算法。根據(jù)以上各種統(tǒng)計數(shù)據(jù),我們按五星制給各個Ftp搜索引擎在數(shù)據(jù)量、功能、速度和綜合上各給一個評分。評分的目的是找出目前互聯(lián)網(wǎng)上比較好用的Ftp搜索引擎以作為用戶選擇FTP文件搜索引擎時的參考。搜索引擎名稱 文件數(shù)目 功能 速度 綜合 天網(wǎng)FTP搜索引擎 ☆★★★★ ★★★★★ ★★★★★ ★★★★★ www.philes.com ★★★★★ ☆☆☆★★ ☆★★★★ ★★★★★ www.alltheweb.com ★★★★★ ☆☆★★★ ☆☆☆☆☆ ★★★★★ www.filesearching.com ★★★★★ ☆☆☆★★ ☆☆☆☆☆ ☆★★★★ www.souborak.com ☆★★★★ ☆☆☆☆★ ☆☆★★★ ☆☆★★★ www.ftpfind.com ★★★★★ ☆★★★★ ☆☆★★★ ★★★★★ ftpsearch.laplink.com ☆★★★★ ☆☆☆★★ ☆☆☆☆☆ ☆☆★★★ 清華9# Nosey Parker ☆☆★★★ ☆☆★★★ ☆☆☆☆☆ ☆☆★★★ 中科大天狼搜索 ☆☆☆★★ ☆☆☆☆★ ☆★★★★ ☆☆☆★★ 網(wǎng)絡(luò)指南針 ☆☆☆★★ ☆☆★★★ ☆☆☆☆☆ ☆☆☆★★ 華南木棉搜索 ☆☆★★★ ☆★★★★ ☆☆☆☆☆ ☆★★★★ 星空搜索 ☆★★★★ ☆★★★★ ☆☆☆☆☆ ☆★★★★ 注:以上灰的說明數(shù)據(jù)無法統(tǒng)計。