-
當前位置:首頁 > 創(chuàng)意學院 > 技術 > 專題列表 > 正文
全文搜索引擎全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、
Inktomi、Teoma、WiseNut等,國內著名的有百度(Baidu)。它們都是通過從互聯網上提取的各個網站的信息(以網頁文字為主)而建立
的數據庫中,檢索與用戶查詢條件匹配的相關記錄,然后按一定的排列順序將結果返回給用戶,因此他們是真正的搜索引擎。
從搜索結果來源
的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,
并自建網頁數據庫,搜索結果直接從自身的數據庫中調用,如上面提到的7家引擎;另一種則是租用其他引擎的數據庫,并按自定的格式排列搜索結果,如
Lycos引擎。
目錄索引
<br>目錄索引雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網站鏈接列表而已。用戶完全可以不用進行關鍵詞
(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo雅虎。其他著名的還有Open
Directory Project(DMOZ)、LookSmart、About等。國內的搜狐、新浪、網易搜索也都屬于這一類。
<br>元搜索引擎(META Search
Engine)<br>元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,并將結果返回給用戶。著名的元搜索引擎有
InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結果排列方面,有的直接
按來源引擎排列搜索結果,如Dogpile,有的則按自定的規(guī)則將結果重新排列組合,如Vivisimo。
除上述三大類引擎外,還有以下幾種非主流形式:集合式搜索引擎:如HotBot在2002
年底推出的引擎。該引擎類似META搜索引擎,但區(qū)別在于不是同時調用多個引擎進行搜索,而是由用戶從提供的4個引擎當中選擇,因此叫它“集合式”搜索引
擎更確切些。
門戶搜索引擎:如AOL Search、MSN
Search等雖然提供搜索服務,但自身即沒有分類目錄也沒有網頁數據庫,其搜索結果完全來自其他引擎。 <br>免費鏈接列表(Free
For All
Links,簡稱FFA):這類網站一般只簡單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規(guī)模比起Yahoo等目錄索引來要小得多。
由于上述網站都為用戶提供搜索查詢服務,為方便起見,我們通常將其統(tǒng)稱為搜索引擎。
搜索引擎基本工作原理
了解搜索引擎的工作原理對我們日常搜索應用和網站提交推廣都會有很大幫助。全文搜索引擎
在搜索引擎分類部分我們提到過全文搜索引擎從網站提取信息建立網頁數據庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜
索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出“蜘蛛”程序,對一定IP地址范圍內的互聯網站進行檢索,一旦發(fā)現新的網站,它會
自動提取網站的信息和網址加入自己的數據庫。
另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2天到數
月不等)定向向你的網站派出“蜘蛛”程序,掃描你的網站并將有關信息存入數據庫,以備用戶查詢。由于近年來搜索引擎索引規(guī)則發(fā)生了很大變化,主動提交網址
并不保證你的網站能進入搜索引擎數據庫,因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機會找到你并自動將你的網站收
錄。
當用戶以關鍵詞查找信息時,搜索引擎會在數據庫中進行搜尋,如果找到與用戶要求內容相符的網站,便采用特殊的算法——通常根據網
頁中關鍵詞的匹配程度,出現的位置/頻次,鏈接質量等——計算出各網頁的相關度及排名等級,然后根據關聯度高低,按順序將這些網頁鏈接返回給用戶。
目錄索引與全文搜索引擎相比,目錄索引有許多不同之處。
首先,搜索引擎屬于自動網站檢索,
而目錄索引則完全依賴手工操作。用戶提交網站后,目錄編輯人員會親自瀏覽你的網站,然后根據一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的
網站。
其次,搜索引擎收錄網站時,只要網站本身沒有違反有關的規(guī)則,一般都能登錄成功。而目錄索引對網站的要求則高得多,有時即使登
錄多次也不一定成功。尤其象Yahoo!這樣的超級索引,登錄更是困難。(由于登錄Yahoo!的難度最大,而它又是商家網絡營銷必爭之地,所以我們會在
后面用專門的篇幅介紹登錄Yahoo雅虎的技巧)<br>此外,在登錄搜索引擎時,我們一般不用考慮網站的分類問題,而登錄目錄索引時則必須
將網站放在一個最合適的目錄(Directory)。
最后,搜索引擎中各網站的有關信息都是從用戶網頁中自動提取的,所以用戶的角度
看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站信息
不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。
目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此用戶
在查詢信息時,可選擇關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結果跟搜索引擎一樣,也是根據信息關聯程度排列網站,只不過其中人為因
素要多一些。如果按分層目錄查找,某一目錄中網站的排名則是由標題字母的先后順序決定(也有例外)。
目前,搜索引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜索引擎現在也提供目錄搜索,如Google就借用Open
Directory目錄提供分類查詢。而象 Yahoo!
這些老牌目錄索引則通過與Google等搜索引擎合作擴大搜索范圍。在默認搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網站,如國內搜
狐、新浪、網易等;而另外一些則默認的是網頁搜索,如Yahoo。
搜索引擎的第三定律
<br><br>搜索引擎走到今天,已經是一個結束過去,開辟未來的時候了。為了說清楚我所講的第三定律,我們先來回顧一下第一
和第二定律。 <br>第一定律 相關性定律
<br>聽起來象是一篇學術論文,的確,就連第一,第二定律的提法以前也沒有過,但是第一,第二定律的內容確早已在業(yè)界和學術界得到了公認。
其實這第一定律是早在互聯網出現之前就被學術界廣泛研究過的,那就是所謂的相關性定律。這個領域那時叫情報檢索,或信息檢索,也有叫全文檢索
的。
那時的相關性都是基于詞頻統(tǒng)計的,也就是說,當用戶輸入檢索詞時,搜索引擎去找那些檢索詞在文章(網頁)中出現頻率較高的,位置
較重要的,再加上一些對檢索詞本身常用程度的加權,最后排出一個結果來(檢索結果頁面)
。早期的搜索引擎結果排序都是基于本文的第一定律的,如Infoseek,Excite,Lycos等,它們基本上是沿用了網絡時代之前學術界的研究成
果,工業(yè)界的主要精力放在處理大訪問量和大數據量上,對相關性排序沒有突破。
詞頻統(tǒng)計其實根本沒有利用任何跟網絡有關的特性,是前網
絡時代的技術。然而,網絡時代的主要文獻是以網頁的形式存在的,而幾乎每個人都可以隨心所欲地在網上發(fā)表各種內容,詞頻相同的兩個網頁,質量相差可以很
遠,可是按照搜索引擎的第一定律,對這兩個網頁的排序應該是一樣的。為了能夠派在某些檢索結果的前幾位,許多網頁內容的制作者絞盡腦汁,在其頁面上堆砌關
鍵詞,搜索引擎對此防不勝防,苦不堪言。這種情況到了 1996年開始有了改變。
第二定律
人氣質量定律 1996年4月,我到賭城拉斯維加斯開一個有關信息檢索方面的學術會議,會議的內容就象拉斯維加斯的天氣一樣,照例比較
枯燥乏味。但遠離公司的我,卻難得有一個靜下心來認真思考問題的機會。就在聽一個毫不相干的論文演講的時候,我突然把科學引文索引的機制跟Web上的超級
鏈接聯系起來了 -
感謝北大,她在我上大三的時候就教授了我科學引文索引的機制,美國恐怕沒有一所大學會在你本科的時候教這玩藝兒。
科學引文索引的機
制,說白了就是誰的論文被引用次數多,誰就被認為是權威,論文就是好論文。這個思路移植到網上就是誰的網頁被鏈接次數多,那個網頁就被認為是質量高,人氣
旺。在加上相應的鏈接文字分析,就可以用在搜索結果的排序上了。這就引出了搜索引擎的第二定律:人氣質量定律。根據這一定律,搜索結果的相關性排序,并不
完全依賴于詞頻統(tǒng)計,而是更多地依賴于超鏈分析。
一個突破性的東西,回去以后就很快總結了思路,于96年6月申請了這一
方面的美國專利。1999年
7月6號,美國專利和商標局批準了專利號為5,920,859的,以我為唯一發(fā)明人的專利。大約在96年底,斯坦福大學計算機系的兩位研究生也想到了同樣
的解決方法,他們后來創(chuàng)立了一個叫Google的搜索引擎,Google的網站上至今仍然說他們的這項技術是Patent-pending
(專利申請中) ,不知道美國專利局是不是還會再批這樣的專利。Anyway,
超鏈分析的方法98年以后逐漸被各大搜索引擎所接受,由于鏈接是網絡內容的一個根本特性,這時候的搜索引擎才開始真正利用網絡時代的檢索技
術。
2000年起網絡泡沫迅速破滅,各大搜索引擎要么遭人收購,要么推遲上市,所有使用人氣質量定律的搜索引擎公司都未能
幸免。那么,搜索引擎的出路到底在哪兒? 第三定律
自信心定律人氣質量定律解決的還是一個技術層面的問題,然而搜索引擎從誕生的那一天起,從來就不是一個純技術現像,它融合了技術,文
化,市場等各個層面的因素。解決搜索引擎公司的生存和發(fā)展問題需要搜索引擎的第三定律--自信心定律。
1998年的時候,沒有太多的
人拿一家遠在硅谷500英里以外,剛剛成立的(現已更名為Overture)的公司當回事兒。它不過是買了一個搜索引擎的技術服
務,然后再向那些網站的擁有者們拍賣他們網站在GoTo檢索結果中的排名,誰付的錢多,誰的網站就排在前面,而且付費是根據網民點擊該網站的情況來計算
的,僅僅在搜索結果中出現并不需要付費。這就是自信心定律的最早實踐者!根據這一定律,搜索結果的相關性排序,除了詞頻統(tǒng)計和超鏈分析之外,更注重的是競
價拍賣。誰對自己的網站有信心,誰就排在前面。有信心的表現就是愿意為這個排名付錢。需要聲明的是,自信心定律也是我自己給這一模式起的名字,以前的文獻
中并沒有人這樣總結過。
今天,在網絡業(yè)一片蕭條,那斯達克風聲鶴唳的時候,GoTo卻如日中天,市值高達13億美金,收入高達雅虎總
收入的35%。反觀門戶網站,有哪一個能從它們的搜索引擎服務中賺出總收入的三分之一呢?究其原因,就是因為GoTo最早實踐了搜索引擎的自信心定律。以
前的搜索引擎都是靠CPM來收費的,而CPM是從傳統(tǒng)廣告業(yè)借鑒過來的,沒有考慮網絡媒體即時性,交互性,易競價的特點,而競價排名,點擊收費則是為網站
擁有者直接提供銷售線索,而不是傳統(tǒng)意義上的廣告宣傳。自信心定律一改過去搜索引擎靠CPM收錢的尷尬局面,開創(chuàng)了真正屬于互聯網的收費模式。
超級搜索引擎網頁(超級搜索引擎網頁打不開)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關于超級搜索引擎網頁的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關鍵詞,就能返回你想要的內容,越精準,寫出的就越詳細,有微信小程序端、在線網頁版、PC客戶端
創(chuàng)意嶺作為行業(yè)內優(yōu)秀的企業(yè),服務客戶遍布全球各地,如需了解相關業(yè)務請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、除了IE瀏覽器,還有什么可以上網?
GoSuRF Browser
基于IE內核的多頁面瀏覽器。人性化的設計,符合您的瀏覽習慣和動作,合理的細節(jié)功能擴展給您事半功倍的瀏覽體驗,界面全方位自定義,讓你的瀏覽世界更廣闊。該款瀏覽器對系統(tǒng)資源的占用相當的少,另外各項操作上的完美演繹令 GoSuRF 個性更加鮮明,細節(jié)功能上的完善更是人性化體現得淋漓盡致。還等什么?現在就選擇 GoSuRF 作為您的網頁瀏覽工具,即刻開始全新的沖浪體驗!
http://download.pchome.net/internet/browser/browser/7843.html
Mozilla Firefox 簡體中文版(火狐)
Mozilla開發(fā)組的新作,是一個干凈、完整的瀏覽器。速度極快,沒有包含電子郵件等一些硬塞給用戶的組件?;贕ecko引擎,很小巧,只有7.44Mb,遠小于IE。對東亞語言支持也不錯。
http://download.pchome.net/internet/browser/browser/15207.html
mxie 馬克思ie
馬克思ie(mxie)是一個擁有網頁瀏覽器功能的超級P2P搜索引擎,完全免費!各種音樂、電影、動漫、小說、圖片等娛樂文件,一切你想得到的都可以找到!采用目前最為先進的多點P2P技術,搜尋到的就能下載到,絕對無死鏈!神奇的“越多人下載越高速”特性,充分挖掘你的帶寬潛力,保證高速!獨家裝備了強力防火墻穿透利器,即使在嚴密防護的企業(yè)防火墻后也能通行自如。
http://download.pchome.net/internet/browser/browser/18797.html
MyIE 網際暢游 中文版(簡體)
為什么繼續(xù)MyIE開源項目 (1).正如大家所知的,MyIE3.2以前的版本是在changyou主力下開源開發(fā)的,這個項目因為changyou的原因而停止,后來從MyIE而發(fā)展出了多個瀏覽器,但這些瀏覽器都是非開源開發(fā)的,GreenBrowser最早也是在MyIE基礎 上進一步開發(fā)而來,經過近3年的開發(fā),各方面都比較成熟了,在下一個開發(fā)進程前,我們想探索一下開源開發(fā)這種模式,因此想到了繼續(xù)changyou以前停止的MyIE開源項目. (2).現在GreenBrowser在內容,外觀,功能方面都有了較大的改變,特別是加入了很多瀏覽輔助功能,這些功能的加入雖然在一定程度上提供了瀏覽的方便,但是也增加了較多的資源占用,降低了瀏覽的效率.有些用戶對此的意見也比較大,所以我們想有 針對性的推出一個專注于網頁瀏覽的瀏覽器,在GreenBrowser基礎上削減些不常用的功能,以瀏覽網頁為主要功能,去掉一些不常用的與瀏覽關系不大的功能,以綠色,簡潔,快速為主要目標.這個瀏覽器的名稱和GreenBrowser名稱最好有所區(qū)別 ,所以考慮和MyIE開源項目相結合. (3).各個用戶的使用習慣和要求不盡相同,開源可以為他們提供最大限度的使用自由. MyIE和GreenBrowser的關系 由于MyIE3.2版本的代碼問題較多,很多功能也不是很完善,因此我們不考慮使用MyIE3.2的代碼,而是在GreenBrowser2.4版本源代碼的基礎上刪除去掉一些不常用的與瀏覽關系不大的功能,但是主要的功能和代碼保持相同.同時Green Browser將在現在版本基礎上繼續(xù)開發(fā).
二、搜索引擎分為哪幾類
問題一:搜索引擎都有哪些分類? 【分類】
1.全文索引
全文搜索引擎是名副其實的搜索引擎,國外代表有Google,國內則有著名的百度搜索。它們從互聯網提取各個網站的信息(以網頁文字為主),建立起數據庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結果。
根據搜索結果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,能自建網頁數據庫,搜索結果直接從自身的數據庫中調用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數據庫,并按自定的格式排列搜索結果,如Lycos搜索引擎。
2.目錄索引
目錄索引雖然有搜索功能,但嚴格意義上不能稱為真正的搜索引擎,只是按目錄分類的網站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關鍵詞(Keywords)進行查詢。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo!、新浪分類目錄搜索。
3.元搜索引擎
元搜索引擎(META Search Engine)接受用戶查詢請求后,同時在多個搜索引擎上搜索,并將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結果排列方面,有的直接按來源排列搜索結果,如Dogpile;有的則按自定的規(guī)則將結果重新排列組合,如Vivisimo。
其他非主流搜索引擎形式
(1) *** 式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時調用多個搜索引擎進行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。
(2)門戶搜索引擎:AOL Search、MSN Search等雖然提供搜索服務,但自身既沒有分類目錄也沒有網頁數據庫,其搜索結果完全來自其他搜索引擎。
(3)免費鏈接列表(Free For All Links,簡稱FFA):一般只簡單地滾動鏈接條目,少部分有簡單的分類目錄,不過規(guī)模要比Yahoo!等目錄索引小很多。
【工作原理】
1、抓取網頁
每個獨立的搜索引擎都有自己的網頁抓取程序(spider)。Spider順著網頁中的超鏈接,連續(xù)地抓取網頁。由于互聯網中超鏈接的應用很普遍,理論上,從一定范圍的網頁出發(fā),就能搜集到絕大多數的網頁。
2、處理網頁
搜索引擎抓到網頁后,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引文件。其他還包括去除重復網頁、分析超鏈接、計算網頁的重要度。
3、提供檢索服務
用戶輸入關鍵詞進行檢索,搜索引擎從索引數據庫中找到匹配該關鍵詞的網頁;為了用戶便于判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。
問題二:搜索引擎都有哪幾種類型 搜索引擎主要分類,及特點:
一、全文索引
全文搜索引擎是目前廣泛應用的主流搜索引擎,國外代表搜索是Google,國內則有最大中文搜索百度。它們從互聯網提取各個網站的信息(以網頁文字為主),建立起數據庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結果。
根據搜索結果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,能自建網頁數據庫,搜索結果直接從自身的數據庫中調用,上面提到的Google和360搜索就屬于此類;另一類則是租用其他搜索引擎的數據庫,并按自定的格式排列搜索結果,如Lycos搜索引擎。
二、目錄索引
目錄索引也稱為:分類檢索,是因特網上最早提供WWW資源查詢的服務,主要通過搜集和整理因特網的資源,根據搜索到網頁的內容,將其網址分配到相關分類主題目錄的不同層次的類目之下,形成像圖書館目錄一樣的分類樹形結構索引。目錄索引無需輸入任何文字,只要根據網站提供的主題分類目錄,層層點擊進入,便可查到所需的網絡信息資源。
三、元搜索引擎
元搜索引擎(META Search Engine)接受用戶查詢請求后,同時在多個搜索引擎上搜索,并將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結果排列方面,有的直接按來源排列搜索結果,如Dogpile;有的則按自定的規(guī)則將結果重新排列組合,如Vivisimo。
四、垂直搜索引擎
垂直搜索引擎為2006年后逐步興起的一類搜索引擎。不同于通用的網頁搜索引擎,垂直搜索專注于特定的搜索領域和搜索需求(例如:機票搜索、旅游搜索、生活搜索、小說搜索、視頻搜索等等),在其特定的搜索領域有更好的用戶體驗。相比通用搜索動輒數千臺檢索服務器,垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣。
五、 *** 式搜索引擎
*** 式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時調用多個搜索引擎進行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。
六、門戶搜索引擎
門戶搜索引擎:AOLSearch、MSNSearch等雖然提供搜索服務,但自身既沒有分類目錄也沒有網頁數據庫,其搜索結果完全來自其他搜索引擎。
七、免費鏈接列表
免費鏈接列表(Free For All Links簡稱FFA):一般只簡單地滾動鏈接條目,少部分有簡單的分類目錄,不過規(guī)模要比Yahoo!等目錄索引小很多。
希望可以幫助到你~望采納哦~謝謝~ 看評論
問題三:目前常用的搜索引擎分為哪兩類? 分為三類:全文搜索引擎(例如google)目錄搜索(163),元搜索引擎
問題四:搜索引擎分幾種 可分為三種 搜索引擎分類 搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。 全文搜索引擎 全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內著名的有百度(Baidu)。它們都是通過從互聯網上提取的各個網站的信息(以網頁文字為主)而建立的數據庫中,檢索與用戶查詢條件匹配的相關記錄,然后按一定的排列順序將結果返回給用戶,因此他們是真正的搜索引擎。 從搜索結果來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,并自建網頁數據庫,搜索結果直接從自身的數據庫中調用,如上面提到的7家引擎;另一種則是租用其他引擎的數據庫,并按自定的格式排列搜索結果,如Lycos引擎。 目錄索引 目錄索引雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網站鏈接列表而已。用戶完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project(DMOZ)、LookSmart、About等。國內的搜狐、新浪、網易搜索也都屬于這一類。 元搜索引擎(META Search Engine) 元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,并將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如Dogpile,有的則按自定的規(guī)則將結果重新排列組合,如Vivisimo。 除上述三大類引擎外,還有以下幾種非主流形式: *** 式搜索引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎,但區(qū)別在于不是同時調用多個引擎進行搜索,而是由用戶從提供的4個引擎當中選擇,因此叫它“ *** 式”搜索引擎更確切些。 門戶搜索引擎:如AOL Search、MSN Search等雖然提供搜索服務,但自身即沒有分類目錄也沒有網頁數據庫,其搜索結果完全來自其他引擎。 免費鏈接列表(Free For All Links,簡稱FFA):這類網站一般只簡單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規(guī)模比起Yahoo等目錄索引來要小得多。 由于上述網站都為用戶提供搜索查詢服務,為方便起見,我們通常將其統(tǒng)稱為搜索引擎。 搜索引擎基本工作原理 了解搜索引擎的工作原理對我們日常搜索應用和網站提交推廣都會有很大幫助。 全文搜索引擎 在搜索引擎分類部分我們提到過全文搜索引擎從網站提取信息建立網頁數據庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出“蜘蛛”程序,對一定IP地址范圍內的互聯網站進行檢索,一旦發(fā)現新的網站,它會自動提取網站的信息和網址加入自己的數據庫。 另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出“蜘蛛”程序,掃描你的網站并將有關信息存入......>>
問題五:目前常用的搜索引擎分為哪兩類? 樓主!不是2類,是3類。1。全文搜索引擎(例如google)2。目錄搜索(163),3。元搜索引擎
問題六:中國主要的搜索引擎有哪幾個? 百度(baidu)中文搜索引擎
全球最大中文搜索引擎。提供網頁快照、網頁預覽/預覽全部網頁、相關搜索詞、錯別字糾正提示、新聞搜索、Flash搜索、信息快遞搜索、百度搜霸、搜索援助中心。
北大天網中英文搜索引擎
由北京大學開發(fā),簡體中文、繁體中文和英文三個版本。提供全文檢索、新聞組檢索、FTP檢索(北京大學、中科院等FTP站點)。目前大約收集了100萬個WWW頁面(國內)和14萬篇Newsgroup(新聞組)文章。支持簡體中文、繁體中文、英文關鍵詞搜索,不支持數字關鍵詞和URL名檢索。
新浪搜索引擎
互聯網上規(guī)模 最大的中文搜索引擎之一。設大類目錄18個,子目1萬多個,收錄網站20余萬。提供網站、中文網頁、英文網頁、新聞、漢英辭典、軟件、滬深行情、游戲等多種資源的查詢。
雅虎中國搜索引擎
Yahoo!是世界上最著名的目錄搜索引擎。雅虎中國于1999年9月正式開通,是雅虎在全球的第20個網站。Yahoo!目錄是一個Web資源的導航指南,包括14個主題大類的內容。
搜狐搜索引擎
搜狐于1998年推出中國首家大型分類查詢搜索引擎,到現在已經發(fā)展成為中國影響力最大的分類搜索引擎。每日頁面瀏覽量超過800萬,可以查找網站、網頁、新聞、網址、軟件、黃頁等信息。
網易搜索引擎
網易新一代開放式目錄管理系統(tǒng)(ODP)。擁有近萬名義務目錄管理員。為廣大網民創(chuàng)建了一個擁有超過一萬個類目,超過25萬條活躍站點信息,日增加新站點信息500~1000條,日訪問量超過500萬次的專業(yè)權威的目錄查詢體系。
3721網絡實名/智能搜索
3721公司提供的中文上網服務DD3721網絡實名,使用戶無須記憶復雜的網址,直接輸入中文名稱,即可直達網站。3721智能搜索系統(tǒng)不僅含有精確的網絡實名搜索結果,同時集成多家搜索引擎。
360綜合搜索引擎
問題七:常用搜索引擎按其工作方式可分為哪些 搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
你所說的兩種是不包括目錄索引,因為目錄索引雖然有搜索功能,但從嚴格意義上算不上是真正的搜索引擎,只是一個目錄列表而已。用戶完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。從這個角度說,搜索引擎按其工作方式分為全文搜索引擎和元搜索引擎兩種。
問題八:搜索引擎可分為哪兩種類型,各有什么特點 與全文搜索引擎相比,目錄索引有許多不同之處。
首先,搜索引擎屬于自動網站檢索,而目錄索引則完全依賴手工操作。用戶提交網站后,目錄編輯人員會親自瀏覽你的網站,然后根據一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網站。搜索引擎其次,搜索引擎收錄網站時,只要網站本身沒有違反有關的規(guī)則,一般都能登錄成功。而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo這樣的超級索引,登錄更是困難。
此外,在登錄搜索引擎時,我們一般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在一個最合適的目錄(Directory)。
最后,搜索引擎中各網站的有關信息都是從用戶網頁中自動提取的,所以從用戶的角度看,我們擁有更多的自 *** ;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站信息不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。
目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此用戶在查詢信息時,可選擇關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結果跟搜索引擎一樣,也是根據信息關聯程度排列網站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網站的排名則是由標題字母的先后順序決定(也有例外)。
――選自網頁
問題九:搜索引擎按其工作原理分為哪幾類 搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
你所說的兩種是不包括目錄索引,因為目錄索引雖然有搜索功能,但從嚴格意義上算不上是真正的搜索引擎,只是一個目錄列表而已。用戶完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。從這個角度說,搜索引擎按其工作方式分為全文搜索引擎和元搜索引擎兩種。
問題十:常用的搜索引擎有哪些 國內,百度,360,搜狗,移動端,除了上面三個,還有神馬搜索;國際常用,Google,Yahoo,必應
三、搜索引擎如何搜索到信息?
隨著互聯網的迅猛發(fā)展、WEB信息的增加,用戶要在信息海洋里查找自己所需的信息,就象大海撈針一樣,搜索引擎技術恰好解決了這一難題(它可以為用戶提供信息檢索服務)。搜索引擎是指互聯網上專門提供檢索服務的一類網站,這些站點的服務器通過網絡搜索軟件(例如網絡搜索機器人)或網絡登錄等方式,將Intemet上大量網站的頁面信息收集到本地,經過加工處理建立信息數據庫和索引數據庫,從而對用戶提出的各種檢索作出響應,提供用戶所需的信息或相關指針。用戶的檢索途徑主要包括自由詞全文檢索、關鍵詞檢索、分類檢索及其他特殊信息的檢索(如企業(yè)、人名、電話黃頁等)。下面以網絡搜索機器人為例來說明搜索引擎技術。
1.網絡機器人技術
網絡機器人(Robot)又被稱作Spider、Worm或Random,核心目的是為獲取Intemet上的信息。一般定義為“一個在網絡上檢索文件且自動跟蹤該文件的超文本結構并循環(huán)檢索被參照的所有文件的軟件”。機器人利用主頁中的超文本鏈接遍歷WWW,通過U趾引用從一個HT2LIL文檔爬行到另一個HTML文檔。網上機器人收集到的信息可有多種用途,如建立索引、HIML文件合法性的驗證、uRL鏈接點驗證與確認、監(jiān)控與獲取更新信息、站點鏡像等。
機器人安在網上爬行,因此需要建立一個URL列表來記錄訪問的軌跡。它使用超文本,指向其他文檔的URL是隱藏在文檔中,需要從中分析提取URL,機器人一般都用于生成索引數據庫。所有WWW的搜索程序都有如下的工作步驟:
(1)機器人從起始URL列表中取出URL并從網上讀取其指向的內容;
(2)從每一個文檔中提取某些信息(如關鍵字)并放入索引數據庫中;
(3)從文檔中提取指向其他文檔的URL,并加入到URL列表中;
(4)重復上述3個步驟,直到再沒有新的URL出現或超出了某些限制(時間或磁盤空間);
(5)給索引數據庫加上檢索接口,向網上用戶發(fā)布或提供給用戶檢索。
搜索算法一般有深度優(yōu)先和廣度優(yōu)先兩種基本的搜索策略。機器人以URL列表存取的方式決定搜索策略:先進先出,則形成廣度優(yōu)先搜索,當起始列表包含有大量的WWW服務器地址時,廣度優(yōu)先搜索將產生一個很好的初始結果,但很難深入到服務器中去;先進后出,則形成深度優(yōu)先搜索,這樣能產生較好的文檔分布,更容易發(fā)現文檔的結構,即找到最大數目的交叉引用。也可以采用遍歷搜索的方法,就是直接將32位的IP地址變化,逐個搜索整個Intemet。
搜索引擎是一個技術含量很高的網絡應用系統(tǒng)。它包括網絡技術、數據庫技術動標引技術、檢索技術、自動分類技術,機器學習等人工智能技術。
2.索引技術
索引技術是搜索引擎的核心技術之一。搜索引擎要對所收集到的信息進行整理、分類、索引以產生索引庫,而中文搜索引擎的核心是分詞技術。分詞技術是利用一定的規(guī)則和詞庫,切分出一個句子中的詞,為自動索引做好準備。目前的索引多采用Non—clustered方法,該技術和語言文字的學問有很大的關系,具體有如下幾點:
(1)存儲語法庫,和詞匯庫配合分出句子中的詞匯;
(2)存儲詞匯庫,要同時存儲詞匯的使用頻率和常見搭配方式;
(3)詞匯寬,應可劃分為不同的專業(yè)庫,以便于處理專業(yè)文獻;
(4)對無法分詞的句子,把每個字當作詞來處理。
索引器生成從關鍵詞到URL的關系索引表。索引表一般使用某種形式的倒排表(1nversionUst),即由索引項查找相應的URL。索引表也要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰關系或接近關系,并以特定的數據結構存儲在硬盤上。
不同的搜索引擎系統(tǒng)可能采用不盡相同的標引方法。例如Webcrawler利用全文檢索技術,對網頁中每一個單詞進行索引;Lycos只對頁名、標題以及最重要的100個注釋詞等選擇性詞語進行索引;Infoseek則提供概念檢索和詞組檢索,支持and、or、near、not等布爾運算。檢索引擎的索引方法大致可分為自動索引、手工索引和用戶登錄三類。
3.檢索器與結果處理技術
檢索器的主要功能是根據用戶輸入的關鍵詞在索引器形成的倒排表中進行檢索,同時完成頁面與檢索之間的相關度評價,對將要輸出的結果進行排序,并實現某種用戶相關性反饋機制。
通過搜索引擎獲得的檢索結果往往成百上千,為了得到有用的信息,常用的方法是按網頁的重要性或相關性給網頁評級,進行相關性排序。這里的相關度是指搜索關鍵字在文檔中出現的額度。當額度越高時,則認為該文檔的相關程度越高。能見度也是常用的衡量標準之一。一個網頁的能見度是指該網頁入口超級鏈接的數目。能見度方法是基于這樣的觀點:一個網頁被其他網頁引用得越多,則該網頁就越有價值。特別地,一個網頁被越重要的網頁所引用,則該網頁的重要程度也就越高。結果處理技術可歸納為:
(1)按頻次排定次序通常,如果一個頁面包含了越多的關鍵詞,其搜索目標的相關性應該越好,這是非常合平常理的解決方案。
(2)按頁面被訪問度排序在這種方法中,搜索引擎會記錄它所搜索到的頁面被訪問的頻率。人們訪問較多的頁面通常應該包含比較多的信息,或者有其他吸引入的長處。這種解決方案適合一般的搜索用戶,而因為大部分的搜索引擎都不是專業(yè)性用戶,所以這種方案也比較適合一般搜索引擎使用。
(3)二次檢索進一步凈化(比flne)結果,按照一定的條件對搜索結果進行優(yōu)化,可以再選擇類別、相關詞進行二次搜索等。
由于目前的搜索引擎還不具備智能,除非知道要查找的文檔的標題,否則排列第一的結果未必是“最好”的結果。所以有些文檔盡管相關程度高,但并不一定是用戶最需要的文檔。
搜索引擎技術的行業(yè)應用:
搜索引擎的行業(yè)應用一般指類似于千瓦通信提供的多種搜索引擎行業(yè)與產品應用模式,大體上分為如下幾種形式:
1、政府機關行業(yè)應用
n實時跟蹤、采集與業(yè)務工作相關的信息來源。
n全面滿足內部工作人員對互聯網信息的全局觀測需求。
n及時解決政務外網、政務內網的信息源問題,實現動態(tài)發(fā)布。
n快速解決政府主網站對各地級子網站的信息獲取需求。
n全面整合信息,實現政府內部跨地區(qū)、跨部門的信息資源共享與有效溝通。
n節(jié)約信息采集的人力、物力、時間,提高辦公效率。
2、企業(yè)行業(yè)應用
n實時準確地監(jiān)控、追蹤競爭對手動態(tài),是企業(yè)獲取競爭情報的利器。
n及時獲取競爭對手的公開信息以便研究同行業(yè)的發(fā)展與市場需求。
n為企業(yè)決策部門和管理層提供便捷、多途徑的企業(yè)戰(zhàn)略決策工具。
n大幅度地提高企業(yè)獲取、利用情報的效率,節(jié)省情報信息收集、存儲、挖掘的相關費用,是提高企業(yè)核心競爭力的關鍵。
n提高企業(yè)整體分析研究能力、市場快速反應能力,建立起以知識管理為核心的競爭情報數據倉庫,是提高企業(yè)核心競爭力的神經中樞。
3、新聞媒體行業(yè)應用
n快速準確地自動跟蹤、采集數千家網絡媒體信息,擴大新聞線索,提高采集速度。
n支持每天對數萬條新聞進行有效抓取。監(jiān)控范圍的深度、廣度可以自行設定。
n支持對所需內容智能提取、審核。
n實現互聯網信息內容采集、瀏覽、編輯、管理、發(fā)布的一體化。
4、行業(yè)網站應用
n實時跟蹤、采集與網站相關的信息來源。
n及時跟蹤行業(yè)的信息來源網站,自動,快速更新網站信息。動態(tài)更新信息。
n實現互聯網信息內容采集、瀏覽、編輯、管理、發(fā)布的一體化。
n針對商務網站提出商務管理模式,大大提高行業(yè)網站的商務應用需求。
n針對資訊網站分類目錄生成,提出用戶生成網站分類結構。并可以實時增加與更新分類結構。不受級數限制。從而大大利高行業(yè)的應用性。
n提供搜索引擎SEO優(yōu)化專業(yè)服務,快速提高行業(yè)網站的推廣。
n提供與CCDC呼叫搜索引擎的廣告合作。建立行業(yè)網站聯盟,提高行業(yè)網站知名度。
5)網絡信息監(jiān)察與監(jiān)控
n網絡輿情系統(tǒng)。如“千瓦通信-網絡輿情雷達監(jiān)測系統(tǒng)”
n網站信息與內容監(jiān)察與監(jiān)控系統(tǒng),如“千瓦通信-網站信息與內容監(jiān)測與監(jiān)察系統(tǒng)(站內神探)”
隨著因特網的迅猛發(fā)展、WEB信息的增加,用戶要在信息海洋里查找信息,就象大海撈
針一樣,搜索引擎技術恰好解決了這一難題(它可以為用戶提供信息檢索服務)。目前,
搜索引擎技術正成為計算機工業(yè)界和學術界爭相研究、開發(fā)的對象。
搜索引擎(SearchEngine)是隨著WEB信息的迅速增加,從1995年開始逐漸發(fā)展起來
的技術。據發(fā)表在《科學》雜志1999年7月的文章《WEB信息的可訪問性》估計,全球目前
的網頁超過8億,有效數據超過9T,并且仍以每4個月翻一番的速度增長。用戶要在如此浩
瀚的信息海洋里尋找信息,必然會"大海撈針"無功而返。搜索引擎正是為了解決這個"迷航
"問題而出現的技術。搜索引擎以一定的策略在互聯網中搜集、發(fā)現信息,對信息進行理解
、提取、組織和處理,并為用戶提供檢索服務,從而起到信息導航的目的。搜索引擎提供
的導航服務已經成為互聯網上非常重要的網絡服務,搜索引擎站點也被美譽為"網絡門戶"
。搜索引擎技術因而成為計算機工業(yè)界和學術界爭相研究、開發(fā)的對象。本文旨在對搜索
引擎的關鍵技術進行簡單的介紹,以起到拋磚引玉的作用。
分類
按照信息搜集方法和服務提供方式的不同,搜索引擎系統(tǒng)可以分為三大類:
1.目錄式搜索引擎:以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人
工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網站,提供目錄瀏
覽服務和直接檢索服務。該類搜索引擎因為加入了人的智能,所以信息準確、導航質量高
,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是
:Yahoo、LookSmart、OpenDirectory、GoGuide等。
2.機器人搜索引擎:由一個稱為蜘蛛(Spider)的機器人程序以某種策略自動地在互
聯網中搜集和發(fā)現信息,由索引器為搜集到的信息建立索引,由檢索器根據用戶的查詢輸
入檢索索引庫,并將查詢結果返回給用戶。服務方式是面向網頁的全文檢索服務。該類搜
索引擎的優(yōu)點是信息量大、更新及時、毋需人工干預,缺點是返回信息過多,有很多無關
信息,用戶必須從結果中進行篩選。這類搜索引擎的代表是:AltaVista、NorthernLigh
t、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國內代表為:"天網"、悠游、O
penFind等。
3.元搜索引擎:這類搜索引擎沒有自己的數據,而是將用戶的查詢請求同時向多個搜
索引擎遞交,將返回的結果進行重復排除、重新排序等處理后,作為自己的結果返回給用
戶。服務方式為面向網頁的全文檢索。這類搜索引擎的優(yōu)點是返回結果的信息量更大、更
全,缺點是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類搜索引
擎的代表是WebCrawler、InfoMarket等。
性能指標
我們可以將WEB信息的搜索看作一個信息檢索問題,即在由WEB網頁組成的文檔庫中檢索
出與用戶查詢相關的文檔。所以我們可以用衡量傳統(tǒng)信息檢索系統(tǒng)的性能參數-召回率(R
ecall)和精度(Pricision)衡量一個搜索引擎的性能。
召回率是檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率,衡量的是檢索系
統(tǒng)(搜索引擎)的查全率;精度是檢索出的相關文檔數與檢索出的文檔總數的比率,衡量
的是檢索系統(tǒng)(搜索引擎)的查準率。對于一個檢索系統(tǒng)來講,召回率和精度不可能兩全
其美:召回率高時,精度低,精度高時,召回率低。所以常常用11種召回率下11種精度的
平均值(即11點平均精度)來衡量一個檢索系統(tǒng)的精度。對于搜索引擎系統(tǒng)來講,因為沒
有一個搜索引擎系統(tǒng)能夠搜集到所有的WEB網頁,所以召回率很難計算。目前的搜索引擎系
統(tǒng)都非常關心精度。
影響一個搜索引擎系統(tǒng)的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢
的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相
關度反饋的機制。
主要技術
一個搜索引擎由搜索器、索引器、檢索器和用戶接口等四個部分組成。
1.搜索器
搜索器的功能是在互聯網中漫游,發(fā)現和搜集信息。它常常是一個計算機程序,日夜
不停地運行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時因為互聯網上的信
息更新很快,所以還要定期更新已經搜集過的舊信息,以避免死連接和無效連接。目前有
兩種搜集信息的策略:
●從一個起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優(yōu)先、深
度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯網中發(fā)現信息。這些起始URL可以是任意的URL,但常常
是一些非常流行、包含很多鏈接的站點(如Yahoo?。?。
●將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負責一個子空間的窮盡
搜索。搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、
字處理文檔、多媒體信息。搜索器的實現常常用分布式、并行計算技術,以提高信息
發(fā)現和更新的速度。商業(yè)搜索引擎的信息發(fā)現可以達到每天幾百萬網頁。
2.索引器
索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔以及生
成文檔庫的索引表。
索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,如作者名、
URL、更新時間、編碼、長度、鏈接流行度(LinkPopularity)等等;內容索引項是用來
反映文檔內容的,如關鍵詞及其權重、短語、單字等等。內容索引項可以分為單索引項和
多索引項(或稱短語索引項)兩種。單索引項對于英文來講是英語單詞,比較容易提取,
因為單詞之間有天然的分隔符(空格);對于中文等連續(xù)書寫的語言,必須進行詞語的切
分。在搜索引擎中,一般要給單索引項賦與一個權值,以表示該索引項對文檔的區(qū)分
度,同時用來計算查詢結果的相關度。使用的方法一般有統(tǒng)計法、信息論法和概率法。短
語索引項的提取方法有統(tǒng)計法、概率法和語言學法。
索引表一般使用某種形式的倒排表(InversionList),即由索引項查找相應的文檔
。索引表也可能要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰或
接近關系(proximity)。
索引器可以使用集中式索引算法或分布式索引算法。當數據量很大時,必須實現即時
索引(InstantIndexing),否則不能夠跟上信息量急劇增加的速度。索引算法對索引器
的性能(如大規(guī)模峰值查詢時的響應速度)有很大的影響。一個搜索引擎的有效性在很大
程度上取決于索引的質量。
3.檢索器檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與
查詢的相關度評價,對將要輸出的結果進行排序,并實現某種用戶相關性反饋機制。
檢索器常用的信息檢索模型有集合理論模型、代數模型、概率模型和混合模型四種。
4.用戶接口
用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要的
目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。
用戶接口的設計和實現使用人機交互的理論和方法,以充分適應人類的思維習慣。
用戶輸入接口可以分為簡單接口和復雜接口兩種。
簡單接口只提供用戶輸入查詢串的文本框;復雜接口可以讓用戶對查詢進行限制,如
邏輯運算(與、或、非;+、-)、相近關系(相鄰、NEAR)、域名范圍(如.edu、.com)
、出現位置(如標題、內容)、信息時間、長度等等。目前一些公司和機構正在考慮制定
查詢選項的標準。
未來動向
搜索引擎已成為一個新的研究、開發(fā)領域。因為它要用到信息檢索、人工智能、計算
機網絡、分布式處理、數據庫、數據挖掘、數字圖書館、自然語言處理等多領域的理論和
技術,所以具有綜合性和挑戰(zhàn)性。又由于搜索引擎有大量的用戶,有很好的經濟價值,所
以引起了世界各國計算機科學界和信息產業(yè)界的高度關注,目前的研究、開發(fā)十分活躍,
并出現了很多值得注意的動向。
1.十分注意提高信息查詢結果的精度,提高檢索的有效性用戶在搜索引擎上進行
信息查詢時,并不十分關注返回結果的多少,而是看結果是否和自己的需求吻合。對于一
個查詢,傳統(tǒng)的搜索引擎動輒返回幾十萬、幾百萬篇文檔,用戶不得不在結果中篩選。解
決查詢結果過多的現象目前出現了幾種方法:一是通過各種方法獲得用戶沒有在查詢語句
中表達出來的真正用途,包括使用智能代理跟蹤用戶檢索行為,分析用戶模型;使用相關
度反饋機制,使用戶告訴搜索引擎哪些文檔和自己的需求相關(及其相關的程度),哪些
不相關,通過多次交互逐步求精。二是用正文分類(TextCategorization)技術將結果分
類,使用可視化技術顯示分類結構,用戶可以只瀏覽自己感興趣的類別。三是進行站點類
聚或內容類聚,減少信息的總量。
2.基于智能代理的信息過濾和個性化服務
信息智能代理是另外一種利用互聯網信息的機制。它使用自動獲得的領域模型(如We
b知識、信息處理、與用戶興趣相關的信息資源、領域組織結構)、用戶模型(如用戶背景
、興趣、行為、風格)知識進行信息搜集、索引、過濾(包括興趣過濾和不良信息過濾)
,并自動地將用戶感興趣的、對用戶有用的信息提交給用戶。智能代理具有不斷學習、適
應信息和用戶興趣動態(tài)變化的能力,從而提供個性化的服務。智能代理可以在用戶端進行
,也可以在服務器端運行。
3.采用分布式體系結構提高系統(tǒng)規(guī)模和性能
搜索引擎的實現可以采用集中式體系結構和分布式體系結構,兩種方法各有千秋。但
當系統(tǒng)規(guī)模到達一定程度(如網頁數達到億級)時,必然要采用某種分布式方法,以提高
系統(tǒng)性能。搜索引擎的各個組成部分,除了用戶接口之外,都可以進行分布:搜索器可以
在多臺機器上相互合作、相互分工進行信息發(fā)現,以提高信息發(fā)現和更新速度;索引器可
以將索引分布在不同的機器上,以減小索引對機器的要求;檢索器可以在不同的機器上.
四、沒有受到限制的搜索引擎有哪些
沒有受到限制的搜索引擎可分為三種:全文搜索引擎(Full Text Search
Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
以上就是關于超級搜索引擎網頁相關問題的回答。希望能幫到你,如有更多相關問題,您也可以聯系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內容。
推薦閱讀: