sorter是什么意思,sorter中文翻譯,sorter發(fā)音、用法及例句
?sorter
sorter發(fā)音
英:['s?:t?] 美:['s?:t?]
英: 美:
sorter中文意思翻譯
n. 分類程序, 分類機(jī), 整理者
sorter常見例句
1 、It's a poor sort of memory that only work backwards.───只會(huì)向后作用的記憶力可就差勁了。
2 、What sort of medicine do you take?───你吃的是什么藥?
3 、Let's leave the two of them to sort themselves out.───咱們讓他們倆自己把相互間的誤解好好澄清一下吧。
4 、What sort of car would you like to hire?───你想租那一類的車?
5 、No, actually, that sort of thing isn't for me.───不,實(shí)際上,那種事不合我的口味。
6 、She never meant anything of the sort.───她決沒有那種意思。
7 、She's not such a bad sort.───她不是這樣壞的人。
8 、Don't spend your time writing this sort of squibs.───不要花時(shí)間寫這類的諷刺短文了。
9 、Your act doesn't sort ill with your status.───你的行為不太符合你的身份。
10 、He's not he sort of man to be trusted.───他不是一個(gè)可信賴的人。
11 、He led off with his companion in a sort of quick-step.───他和他的舞伴帶頭跳一種快步舞。
12 、He protested that he had no views of that sort.───他分辯說,他沒有這種看法。
13 、What sort of classic the concert will have tonight?───今晚音樂會(huì)上將有哪種古典音樂?
14 、What soup do you have? What sort of soup is there?───你們有些什么湯?
15 、I'd need a cell sorter to get really get a look.─── 我需要用細(xì)胞分選儀仔細(xì)看看
16 、The illiberality of parents, in allowance towards their children, is an harmful error; makes them base; acquaints them with shifts; makes them sort with mean company; and makes them surfeit more when they come to plenty.───在子女小時(shí)不應(yīng)對他們過于苛吝。否則會(huì)使他們變得卑賤,甚至投機(jī)取巧,以至墮入下流,即使后來有了財(cái)富時(shí)也不會(huì)正當(dāng)利用。
17 、He do not want any special sort.───他不想要任何特別種類的。
18 、He's the sort of man whom setbacks weigh very heavily.───他是那種碰到挫折就萬分苦惱的人。
19 、He's not the sort of man who would go back on his word.───他不是那種會(huì)食言的人。
20 、What sort of food do you like best?───你最喜歡吃什么樣的食物?
21 、He is in essence a reclusive sort.───他本質(zhì)上具有一種隱士的氣質(zhì)
22 、"She is very unhappy, and-and that sort of thing, " Jose urged.───喬斯慫恿地說:"她可憐得很呢,還有-還有許多其他倒霉的事情。
23 、That sort of work wants a lot of patience.───做這樣工作需要很大的耐心。
24 、He is a downright sort of person.───他是那種直爽的人。
25 、A card stacker in card sorter.───卡片分類機(jī)中的一種接卡箱。
26 、He's a real good sort.───他是個(gè)性情很溫和的人。
27 、All of his relations were a sort of Royal Family.───他的家族都是皇親國戚。
28 、David, in his secret heart, had visions of a sort of sublimated summer resort.───大衛(wèi)在他心里設(shè)想著一個(gè)類似理想的避暑地。
29 、He is sort of, er, in low spirits.───他有點(diǎn)兒,呃,精神不振。
30 、He's the sort of person I really dislike.───他這種人我真不喜歡。
31 、She never immersed herself in that sort of trivia.───她從來不沉湎于往日瑣事。
32 、A veterinary surgeon is a doctor of a sort.───獸醫(yī)是一個(gè)一般的醫(yī)生行當(dāng)。
33 、No buyers can buy this sort of product.───任何買主都不能購買這種產(chǎn)品。
34 、He's the sort of person who would pull the wings off a fly just for kicks.───他就是那種人,會(huì)把的蒼蠅的翅膀拉下來逗人玩。
35 、She hardly ever hit any sort of mark.───他幾乎從來沒有打中過什么目標(biāo)。
36 、Most people know a sort of puzzle called rebus.───大多數(shù)人都知道有一種稱為畫謎的猜謎。
37 、He had a sort of instinctive chivalry in him.───在他身上有一種天生的騎士精神。
38 、He's a bit tight with his money; definitely not the sort of man you can touch for a few bob.───他對錢有點(diǎn)吝嗇,你肯定不能從他這種人那里討到錢的。
39 、He is a sort of person who doesn't care two hoots what other people think.───他就是一個(gè)別人怎么想他毫不在乎的那種人。
40 、They seemed to love the land and the people with a sort of fierce egoism.───他們似乎是帶著強(qiáng)烈的利己主義來愛這里的人和土地的。
41 、Don't worry about price-I'm sure we can come to some sort of arrangement.───別擔(dān)心價(jià)格——我敢肯定我們能夠達(dá)成某種協(xié)議。
42 、He's pulling some sort of trick.───他不定在耍什麼花招。
43 、What sort of people does he think we are?───他把我們看成什么樣的人了?
44 、It seems to be a nasty sort of day,is not it?───似乎天氣惡劣,對吧?
45 、"What sort of a noise?" asked the cook.───“那是什么樣的響聲?”廚娘問道。
46 、There's some sort of sticky fluid on the kitchen floor.───廚房的地上有一種發(fā)黏的液體。
47 、You need a professional to sort out your finances .───你需要專業(yè)人士替你管理財(cái)務(wù)。
48 、He is not the sort of person ever to draw back.───他不是逃避責(zé)任的那種人。
49 、That sort of life style has come to stay whether you approve of it or not.───不管你贊成與否,那種生活方式已成為時(shí)尚。
50 、What sort of book do you want?───你要哪一類的書?
51 、The duchess sang a sort of lullaby to the baby.───公爵夫人對孩子唱了一首催眠曲一樣的歌子。
52 、We must sort out the good apples from the bad.───咱們得把好蘋果揀出來,同壞的分開。
53 、He's a friendly chatty sort of person.───他這個(gè)人挺和善,很愛講話。
54 、Dad seemed to take your going sort of hard.───你父親看來非常舍不得離開你。
55 、It is necessary that he (should) sort out the information for my reference.───他有必要整理些資料供我參考。
56 、What sort of books is most popular?───什么書最流行?
57 、He had such a funny friendly sort of face.───他的面孔是那么和善有趣。
58 、We have a private job to revamp their viticulture technology with selective harvesters and optical sorters.─── 我們接了私活兒 去幫他們改造收割機(jī)和光照揀選機(jī) 以改進(jìn)他們的葡萄栽培技術(shù)
59 、Do you mean you still have some other sort of room?───你是說還有其他樣子的房間嗎?
60 、He is an unapproachable sort of person.───他是個(gè)不易親近的人。
61 、Can you sort me out on how to write this preface?───你能對怎樣寫這個(gè)前言給我提點(diǎn)建議嗎?
62 、Let's sort the names alphabetically.───咱們把名字按字母順序歸類。
63 、Their lukewarm welcome gave me an all-over sort of feeling.───他們不冷不熱的歡迎使我覺得渾身不舒服。
64 、He appeared to be in a spasmodic sort of hurry.───他那副樣子好象非常匆促似的。
65 、You may find this sort of job rather difficult.───你會(huì)感到這種工作相當(dāng)難做。
66 、You must stop, and at once, this sort of behaviour.───你必須而且馬上停止這種行為。
67 、I wonder what sort of a bargain you'll make.───不知道你想賣個(gè)啥價(jià)錢。
68 、What sort of qualifications do you need for the job?───做這項(xiàng)工作需要什么資格?
69 、He's not the sort of man you can put one over on.───他可不是能用花言巧語打動(dòng)的人。
70 、She's a happy-go-lucky sort.───她是個(gè)樂天派。
71 、In another year, Wilma could manage a sort of hop.───又過了一年,威爾瑪好容易才能夠單足蹦跳。
72 、Poison of some sort must be operating in her.───一定有什么毒素在對她起作用。
73 、People have propose all sort of hypotheses to explain why dinosaur have become extinct.───人們提出種種假設(shè),試圖說明恐龍為什么會(huì)滅絕。
74 、What sort of play do you like best?───你最喜歡哪種戲劇?
75 、They served coffee of a sort.───他們供應(yīng)的咖啡很差。
76 、He is a very active sort of person and cannot bear to see others idling about.───他是那種積極肯干的人,看不慣別人懶懶散散。
77 、Let me put on my thinking cap, sir. When you first told me that you wanted to make a sort of offer to me? Now let me think.───先生,讓我仔細(xì)想想, ... 你什么時(shí)候第一次對我說,你有件事跟我商量?讓我想想看。
78 、She is a very domestic sort of woman.───她是個(gè)十足的家庭婦女。
79 、He is the most suitable sort of salesman.───他就是那種最合適的推銷員。
80 、Can't you sort the good from the bad?───你難道不會(huì)區(qū)分好壞嗎?
81 、The husband and wife were having words of a sort.───夫妻倆正在吵架。
82 、She's the sort of woman who lives for others.───她是一心為別人著想的人。
求這些產(chǎn)品得英文名稱
共享器 sharing device
光標(biāo)閱卷機(jī) cursor paper reader
光端機(jī) optical terminal device
光端機(jī) 同上
光盤庫 disc warehouse
光盤銷毀機(jī) disc earse/demolish device
** anti-radar speedmeter
防盜報(bào)警 anti-theft alarm
防毒及郵件過濾 antivirous and email filrtater/sorter
防輻射產(chǎn)品 anti-radioative products/product
防靜電地板 anti-static floor
防雷產(chǎn)品 anti-thunder product/products
防水墻 waterproof wall
復(fù)用器 duplicater
覆膜機(jī) film/pellicle cover
多媒體硬盤播放 multi-media harddisk player
多屏顯示 multi-display
多屏顯示 multi-display
常用的搜索引擎有哪些
索引擎(search engines)是對互聯(lián)網(wǎng)上的信息資源進(jìn)行搜集整理,然后供你查詢的系統(tǒng),它包括信息搜集、信息整理和用戶查詢?nèi)糠帧?/p>
搜索引擎是一個(gè)為你提供信息“檢索”服務(wù)的網(wǎng)站,它使用某些程序把因特網(wǎng)上的所有信息歸類以幫助人們在茫茫網(wǎng)海中搜尋到所需要的信息。
早期的搜索引擎是把因特網(wǎng)中的資源服務(wù)器的地址收集起來,由其提供的資源的類型不同而分成不同的目錄,再一層層地進(jìn)行分類。
人們要找自己想要的信息可按他們的分類一層層進(jìn)入,就能最后到達(dá)目的地,找到自己想要的信息。
這其實(shí)是最原始的方式,只適用于因特網(wǎng)信息并不多的時(shí)候。
隨著因特網(wǎng)信息按幾何式增長,出現(xiàn)了真正意義上的搜索引擎,這些搜索引擎知道網(wǎng)站上每一頁的開始,隨后搜索因特網(wǎng)上的所有超級鏈接,把代表超級鏈接的所有詞匯放入一個(gè)數(shù)據(jù)庫。
這就是現(xiàn)在搜索引擎的原型。
隨著yahoo!的出現(xiàn),搜索引擎的發(fā)展也進(jìn)入了黃金時(shí)代,相比以前其性能更加優(yōu)越。
現(xiàn)在的搜索引擎已經(jīng)不只是單純的搜索網(wǎng)頁的信息了,它們已經(jīng)變得更加綜合化,完美化了。
以搜索引擎權(quán)威yahoo!為例,從1995年3月由美籍華裔楊致遠(yuǎn)等人創(chuàng)辦yahoo!開始,到現(xiàn)在,他們從一個(gè)單一的搜索引擎發(fā)展到現(xiàn)在有電子商務(wù)、新聞信息服務(wù)、個(gè)人免費(fèi)電子信箱服務(wù)等多種網(wǎng)絡(luò)服務(wù),充分說明了搜索引擎的發(fā)展從單一到綜合的過程。
然而由于搜索引擎的工作方式和因特網(wǎng)的快速發(fā)展,使其搜索的結(jié)果讓人越來越不滿意。
例如,搜索“電腦”這個(gè)詞匯,就可能有數(shù)百萬頁的結(jié)果。
這是由于搜索引擎通過對網(wǎng)站的相關(guān)性來優(yōu)化搜索結(jié)果,這種相關(guān)性又是由關(guān)鍵字在網(wǎng)站的位置、網(wǎng)站的名稱、 標(biāo)簽等公式來決定的。
這就是使搜索引擎搜索結(jié)果多而雜的原因。
而搜索引擎中的數(shù)據(jù)庫因?yàn)橐蛱鼐W(wǎng)的發(fā)展變化也必然包含了死鏈接。
這篇文章中,我們介紹了google,它是一個(gè)大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中應(yīng)用廣泛。
Google的設(shè)計(jì)能夠高效地抓網(wǎng)頁并建立索引,它的查詢結(jié)果比其它現(xiàn)有系統(tǒng)都高明。
這個(gè)原型的全文和超連接的數(shù)據(jù)庫至少包含24‘000‘000個(gè)網(wǎng)頁。
我們可以從://google.stanford.edu/ 下載。
設(shè)計(jì)搜索引擎是一項(xiàng)富有挑戰(zhàn)性的工作。
搜索引擎為上億個(gè)網(wǎng)頁建立索引,其中包含大量迥然不同的詞匯。
而且每天要回答成千上萬個(gè)查詢。
在網(wǎng)絡(luò)中,盡管大型搜索引擎非常重要,但是學(xué)術(shù)界卻很少研究它。
此外由于技術(shù)的快速發(fā)展和網(wǎng)頁的大量增加,現(xiàn)在建立一個(gè)搜索引擎和三年前完全不同。
本文詳細(xì)介紹了我們的大型搜索引擎,據(jù)我們所知,在公開發(fā)表的論文中,這是第一篇描述地如此詳細(xì)。
除了把傳統(tǒng)數(shù)據(jù)搜索技術(shù)應(yīng)用到如此大量級網(wǎng)頁中所遇到的問題,還有許多新的技術(shù)挑戰(zhàn),包括應(yīng)用超文本中的附加信息改進(jìn)搜索結(jié)果。
本文將解決這個(gè)問題,描述如何運(yùn)用超文本中的附加信息,建立一個(gè)大型實(shí)用系統(tǒng)。
任何人都可以在網(wǎng)上隨意發(fā)布信息,如何有效地處理這些無組織的超文本 *** ,也是本文要關(guān)注的問題。
關(guān)鍵詞 World Wide Web,搜索引擎,信息檢索,PageRank, Google 1 緒論 Web 給信息檢索帶來了新的挑戰(zhàn)。
Web上的信息量快速增長,同時(shí)不斷有毫無經(jīng)驗(yàn)的新用戶來體驗(yàn)Web這門藝術(shù)。
人們喜歡用超級鏈接來網(wǎng)上沖浪,通常都以象Yahoo這樣重要的網(wǎng)頁或搜索引擎開始。
大家認(rèn)為List(目錄)有效地包含了大家感興趣的主題,但是它具有主觀性,建立和維護(hù)的代價(jià)高,升級慢,不能包括所有深?yuàn)W的主題。
基于關(guān)鍵詞的自動(dòng)搜索引擎通常返回太多的低質(zhì)量的匹配。
使問題更遭的是,一些**為了贏得人們的關(guān)注想方設(shè)法誤導(dǎo)自動(dòng)搜索引擎。
我們建立了一個(gè)大型搜索引擎解決了現(xiàn)有系統(tǒng)中的很多問題。
應(yīng)用超文本結(jié)構(gòu),大大提高了查詢質(zhì)量。
我們的系統(tǒng)命名為google,取名自googol的通俗拼法,即10的100次方,這和我們的目標(biāo)建立一個(gè)大型搜索引擎不謀而合。
1.1網(wǎng)絡(luò)搜索引擎—升級換代(scaling up):1994-2000 搜索引擎技術(shù)不得不快速升級(scale dramatically)跟上成倍增長的web數(shù)量。
1994年,第一個(gè)Web搜索引擎,World Wide Web Worm(WWWW)可以檢索到110,000個(gè)網(wǎng)頁和Web的文件。
到1994年11月,頂級的搜索引擎聲稱可以檢索到2‘000’000(WebCrawler)至100‘000’000個(gè)網(wǎng)絡(luò)文件(來自 Search Engine Watch)。
可以預(yù)見到2000年,可檢索到的網(wǎng)頁將超過1‘000’000‘000。
同時(shí),搜索引擎的訪問量也會(huì)以驚人的速度增長。
在1997年的三四月份,World Wide Web Worm 平均每天收到1500個(gè)查詢。
在1997年11月,Altavista 聲稱它每天要處理大約20’000’000個(gè)查詢。
隨著網(wǎng)絡(luò)用戶的增長,到2000年,自動(dòng)搜索引擎每天將處理上億個(gè)查詢。
我們系統(tǒng)的設(shè)計(jì)目標(biāo)要解決許多問題,包括質(zhì)量和可升級性,引入升級搜索引擎技術(shù)(scaling search engine technology),把它升級到如此大量的數(shù)據(jù)上。
1.2 Google:跟上Web的步伐(Scaling with the Web)建立一個(gè)能夠和當(dāng)今web規(guī)模相適應(yīng)的搜索引擎會(huì)面臨許多挑戰(zhàn)。
抓網(wǎng)頁技術(shù)必須足夠快,才能跟上網(wǎng)頁變化的速度(keep them up to date)。
存儲(chǔ)索引和文檔的空間必須足夠大。
索引系統(tǒng)必須能夠有效地處理上千億的數(shù)據(jù)。
處理查詢必須快,達(dá)到每秒能處理成百上千個(gè)查詢(hundreds to thousands per second.)。
隨著Web的不斷增長,這些任務(wù)變得越來越艱巨。
然而硬件的執(zhí)行效率和成本也在快速增長,可以部分抵消這些困難。
還有幾個(gè)值得注意的因素,如磁盤的尋道時(shí)間(disk seek time),操作系統(tǒng)的效率(operating system robustness)。
在設(shè)計(jì)Google的過程中,我們既考慮了Web的增長速度,又考慮了技術(shù)的更新。
Google的設(shè)計(jì)能夠很好的升級處理海量數(shù)據(jù)集。
它能夠有效地利用存儲(chǔ)空間來存儲(chǔ)索引。
優(yōu)化的數(shù)據(jù)結(jié)構(gòu)能夠快速有效地存取(參考4.2節(jié))。
進(jìn)一步,我們希望,相對于所抓取的文本文件和HTML網(wǎng)頁的數(shù)量而言,存儲(chǔ)和建立索引的代價(jià)盡可能的小(參考附錄B)。
對于象Google這樣的集中式系統(tǒng),采取這些措施得到了令人滿意的系統(tǒng)可升級性(scaling properties)。
1. 3設(shè)計(jì)目標(biāo) 1.3.1提高搜索質(zhì)量我們的主要目標(biāo)是提高Web搜索引擎的質(zhì)量。
1994年,有人認(rèn)為建立全搜索索引(a plete search index)可以使查找任何數(shù)據(jù)都變得容易。
根據(jù)Best of the Web 1994 -- Navigators ,“最好的導(dǎo)航服務(wù)可以使在Web上搜索任何信息都很容易(當(dāng)時(shí)所有的數(shù)據(jù)都可以被登錄)”。
然而1997年的Web就迥然不同。
近來搜索引擎的用戶已經(jīng)證實(shí)索引的完整性不是評價(jià)搜索質(zhì)量的唯一標(biāo)準(zhǔn)。
用戶感興趣的搜索結(jié)果往往湮沒在“垃圾結(jié)果Junk result”中。
實(shí)際上,到1997年11月為止,四大商業(yè)搜索引擎中只 有一個(gè)能夠找到它自己(搜索自己名字時(shí)返回的前十個(gè)結(jié)果中有它自己)。
導(dǎo)致這一問題的主要原因是文檔的索引數(shù)目增加了好幾個(gè)數(shù)量級,但是用戶能夠看的文檔數(shù)卻沒有增加。
用戶仍然只希望看前面幾十個(gè)搜索結(jié)果。
因此,當(dāng) *** 增大時(shí),我們就需要工具使結(jié)果精確(在返回的前幾十個(gè)結(jié)果中,有關(guān)文檔的數(shù)量)。
由于是從成千上萬個(gè)有點(diǎn)相關(guān)的文檔中選出幾十個(gè),實(shí)際上,相關(guān)的概念就是指最好的文檔。
高精確非常重要,甚至以響應(yīng)(系統(tǒng)能夠返回的有關(guān)文檔的總數(shù))為代價(jià)。
令人高興的是利用超文本鏈接提供的信息有助于改進(jìn)搜索和其它應(yīng)用 。
尤其是鏈接結(jié)構(gòu)和鏈接文本,為相關(guān)性的判斷和高質(zhì)量的過濾提供了大量的信息。
Google既利用了鏈接結(jié)構(gòu)又用到了anchor文本(見2.1和2.2節(jié))。
1.3.2搜索引擎的學(xué)術(shù)研究隨著時(shí)間的流逝,除了發(fā)展迅速,Web越來越商業(yè)化。
1993年,只有1.5%的Web服務(wù)是來自域名。
到1997年,超過了60%。
同時(shí),搜索引擎從學(xué)術(shù)領(lǐng)域走進(jìn)商業(yè)。
到現(xiàn)在大多數(shù)搜索引擎被公司所有,很少技公開術(shù)細(xì)節(jié)。
這就導(dǎo)致搜索引擎技術(shù)很大程度上仍然是暗箱操作,并傾向做**(見附錄A)。
Google的主要目標(biāo)是推動(dòng)學(xué)術(shù)領(lǐng)域在此方面的發(fā)展,和對它的了解。
另一個(gè)設(shè)計(jì)目標(biāo)是給大家一個(gè)實(shí)用的系統(tǒng)。
應(yīng)用對我們來說非常重要,因?yàn)楝F(xiàn)代網(wǎng)絡(luò)系統(tǒng)中存在大量的有用數(shù)據(jù)(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。
例如,每天有幾千萬個(gè)研究。
然而,得到這些數(shù)據(jù)卻非常困難,主要因?yàn)樗鼈儧]有商業(yè)價(jià)值。
我們最后的設(shè)計(jì)目標(biāo)是建立一個(gè)體系結(jié)構(gòu)能夠支持新的關(guān)于海量Web數(shù)據(jù)的研究。
為了支持新研究,Google以壓縮的形式保存了實(shí)際所抓到的文檔。
設(shè)計(jì)google的目標(biāo)之一就是要建立一個(gè)環(huán)境使其他研究者能夠很快進(jìn)入這個(gè)領(lǐng)域,處理海量Web數(shù)據(jù),得到滿意的結(jié)果,而通過其它方法卻很難得到結(jié)果。
系統(tǒng)在短時(shí)間內(nèi)被建立起來,已經(jīng)有幾篇論文用到了Google建的數(shù)據(jù)庫,更多的在起步中。
我們的另一個(gè)目標(biāo)是建立一個(gè)宇宙空間實(shí)驗(yàn)室似的環(huán)境,在這里研究者甚至學(xué)生都可以對我們的海量Web數(shù)據(jù)設(shè)計(jì)或做一些實(shí)驗(yàn)。
2. 系統(tǒng)特點(diǎn) Google搜索引擎有兩個(gè)重要特點(diǎn),有助于得到高精度的搜索結(jié)果。
第一點(diǎn),應(yīng)用Web的鏈接結(jié)構(gòu)計(jì)算每個(gè)網(wǎng)頁的Rank值,稱為PageRank,將在98頁詳細(xì)描述它。
第二點(diǎn),Google利用超鏈接改進(jìn)搜索結(jié)果。
2.1 PageRank:給網(wǎng)頁排序 Web的引用(鏈接)圖是重要的資源,卻被當(dāng)今的搜索引擎很大程度上忽視了。
我們建立了一個(gè)包含518‘000’000個(gè)超鏈接的圖,它是一個(gè)具有重要意義的樣本。
這些圖能夠快速地計(jì)算網(wǎng)頁的PageRank值,它是一個(gè)客觀的標(biāo)準(zhǔn),較好的符合人們心目中對一個(gè)網(wǎng)頁重要程度的評價(jià),建立的基礎(chǔ)是通過引用判斷重要性。
因此在web中,PageRank能夠優(yōu)化關(guān)鍵詞查詢的結(jié)果。
對于大多數(shù)的主題,在網(wǎng)頁標(biāo)題查詢中用PageRank優(yōu)化簡單文本匹配,我們得到了令人驚嘆的結(jié)果(從google.stanford.edu可以得到演示)。
對于Google主系統(tǒng)中的全文搜索,PageRank也幫了不少忙。
2.1.1計(jì)算PageRank 文獻(xiàn)檢索中的引用理論用到Web中,引用網(wǎng)頁的鏈接數(shù),一定程度上反映了該網(wǎng)頁的重要性和質(zhì)量。
PageRank發(fā)展了這種思想,網(wǎng)頁間的鏈接是不平等的。
PageRank定義如下: 我們假設(shè)T1…Tn指向網(wǎng)頁A(例如,被引用)。
參數(shù)d是制動(dòng)因子,使結(jié)果在0,1之間。
通常d等于0.85。
在下一節(jié)將詳細(xì)介紹d。
C(A)定義為網(wǎng)頁A指向其它網(wǎng)頁的鏈接數(shù),網(wǎng)頁A的PageRank值由下式給出: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式,分布到各個(gè)網(wǎng)頁中,因此所有網(wǎng)頁的PageRank和是1。
PageRank或PR(A)可以用簡單的迭代算法計(jì)算,相應(yīng)規(guī)格化Web鏈接矩陣的主特征向量。
中等規(guī)模的網(wǎng)站計(jì)算26‘000’000網(wǎng)頁的PageRank值要花費(fèi)幾小時(shí)。
還有一些技術(shù)細(xì)節(jié)超出了本文論述的范圍。
2.1.2直覺判斷 PageRank被看作用戶行為的模型。
我們假設(shè)網(wǎng)上沖浪是隨機(jī)的,不斷點(diǎn)擊鏈接,從不返回,最終煩了,另外隨機(jī)選一個(gè)網(wǎng)頁重新開始沖浪。
隨機(jī)訪問一個(gè)網(wǎng)頁的可能性就是它的PageRank值。
制動(dòng)因子d是隨機(jī)訪問一個(gè)網(wǎng)頁煩了的可能性,隨機(jī)另選一個(gè)網(wǎng)頁。
對單個(gè)網(wǎng)頁或一組網(wǎng)頁,一個(gè)重要的變量加入到制動(dòng)因子d中。
這允許個(gè)人可以故意地誤導(dǎo)系統(tǒng),以得到較高的PageRank值。
我們還有其它的PageRank算法,見98頁。
另外的直覺判斷是一個(gè)網(wǎng)頁有很多網(wǎng)頁指向它,或者一些PageRank值高的網(wǎng)頁指向它,則這個(gè)網(wǎng)頁很重要。
直覺地,在Web中,一個(gè)網(wǎng)頁被很多網(wǎng)頁引用,那么這個(gè)網(wǎng)頁值得一看。
一個(gè)網(wǎng)頁被象Yahoo這樣重要的主頁引用即使一次,也值得一看。
如果一個(gè)網(wǎng)頁的質(zhì)量不高,或者是死鏈接,象Yahoo這樣的主頁不會(huì)鏈向它。
PageRank處理了這兩方面因素,并通過網(wǎng)絡(luò)鏈接遞歸地傳遞。
& nbsp; 2.2鏈接描述文字(Anchor Text)我們的搜索引擎對鏈接文本進(jìn)行了特殊的處理。
大多數(shù)搜索引擎把鏈接文字和它所鏈向的網(wǎng)頁(the page that the link is on)聯(lián)系起來。
另外,把它和鏈接所指向的網(wǎng)頁聯(lián)系起來。
這有幾點(diǎn)好處。
第一,通常鏈接描述文字比網(wǎng)頁本身更精確地描述該網(wǎng)頁。
第二,鏈接描述文字可能鏈向的文檔不能被文本搜索引擎檢索到,例如圖像,程序和數(shù)據(jù)庫。
有可能使返回的網(wǎng)頁不能被抓到。
注意哪些抓不到的網(wǎng)頁將會(huì)帶來一些問題。
在返回給用戶前檢測不了它們的有效性。
這種情況搜索引擎可能返回一個(gè)根本不存在的網(wǎng)頁,但是有超級鏈接指向它。
然而這種結(jié)果可以被挑出來的,所以此類的問題很少發(fā)生。
鏈接描述文字是對被鏈向網(wǎng)頁的宣傳,這個(gè)思想被用在World Wide Web Worm 中,主要因?yàn)樗兄谒阉鞣俏谋拘畔?,能夠用少量的已下載文檔擴(kuò)大搜索范圍。
我們大量應(yīng)用鏈接描述文字,因?yàn)樗兄谔岣咚阉鹘Y(jié)果的質(zhì)量。
有效地利用鏈接描述文字技術(shù)上存在一些困難,因?yàn)楸仨毺幚泶罅康臄?shù)據(jù)。
現(xiàn)在我們能抓到24‘000’000個(gè)網(wǎng)頁,已經(jīng)檢索到259‘000’000多個(gè)鏈接描述文字。
2.3其它特點(diǎn)除了PageRank和應(yīng)用鏈接描述文字外,Google還有一些其它特點(diǎn)。
第一,所有hit都有位置信息,所以它可以在搜索中廣泛應(yīng)用鄰近性(proximity)。
第二,Google跟蹤一些可視化外表細(xì)節(jié),例如字號。
黑體大號字比其它文字更重要。
第三,知識(shí)庫存儲(chǔ)了原始的全文網(wǎng)頁。
3有關(guān)工作 Web檢索研究的歷史簡短。
World Wide Web Worm()是最早的搜索引擎之一。
后來出現(xiàn)了一些用于學(xué)術(shù)研究的搜索引擎,現(xiàn)在它們中的大多數(shù)被上市公司擁有。
與Web的增長和搜索引擎的重要性相比,有關(guān)當(dāng)今搜索引擎技術(shù)的優(yōu)秀論文相當(dāng)少。
根據(jù)Michael Mauldin(Lycos Inc的首席科學(xué)家)) ,“各種各樣的服務(wù)(包括Lycos)非常關(guān)注這些數(shù)據(jù)庫的細(xì)節(jié)。
”雖然在搜索引擎的某些特點(diǎn)上做了大量工作。
具有代表性的工作有,對現(xiàn)有商業(yè)搜索引擎的結(jié)果進(jìn)行傳遞,或建立小型的個(gè)性化的搜索引擎。
最后有關(guān)信息檢索系統(tǒng)的研究很多,尤其在有組織機(jī)構(gòu) *** (well controlled collections)方面。
在下面兩節(jié),我們將討論在信息檢索系統(tǒng)中的哪些領(lǐng)域需要改進(jìn)以便更好的工作在Web上。
3.1信息檢索信息檢索系統(tǒng)誕生在幾年前,并發(fā)展迅速。
然而大多數(shù)信息檢索系統(tǒng)研究的對象是小規(guī)模的單一的有組織結(jié)構(gòu)的 *** ,例如科學(xué)論文集,或相關(guān)主題的新聞故事。
實(shí)際上,信息檢索的主要基準(zhǔn),the Text Retrieval Conference(),用小規(guī)模的、有組織結(jié)構(gòu)的 *** 作為它們的基準(zhǔn)。
大型文集基準(zhǔn)只有20GB,相比之下,我們抓到的24000000個(gè)網(wǎng)頁占147GB。
在TREC上工作良好的系統(tǒng),在Web上卻不一定產(chǎn)生好的結(jié)果。
例如,標(biāo)準(zhǔn)向量空間模型企圖返回和查詢請求最相近的文檔,把查詢請求和文檔都看作由出現(xiàn)在它們中的詞匯組成的向量。
在Web環(huán)境下,這種策略常常返回非常短的文檔,這些文檔往往是查詢詞再加幾個(gè)字。
例如,查詢“Bill Clinton”,返回的網(wǎng)頁只包含“Bill Clinton Sucks”,這是我們從一個(gè)主要搜索引擎中看到的。
網(wǎng)絡(luò)上有些爭議,用戶應(yīng)該更準(zhǔn)確地表達(dá)他們想查詢什么,在他們的查詢請求中用更多的詞。
我們強(qiáng)烈反對這種觀點(diǎn)。
如果用戶提出象“Bill Clinton”這樣的查詢請求,應(yīng)該得到理想的查詢結(jié)果,因?yàn)檫@個(gè)主題有許多高質(zhì)量的信息。
象所給的例子,我們認(rèn)為信息檢索標(biāo)準(zhǔn)需要發(fā)展,以便有效地處理Web數(shù)據(jù)。
3.2有組織結(jié)構(gòu)的 *** (Well Controlled Collections)與Web的不同點(diǎn) Web是完全無組織的異構(gòu)的大量文檔的 *** 。
Web中的文檔無論內(nèi)在信息還是隱含信息都存在大量的異構(gòu)性。
例如,文檔內(nèi)部就用了不同的語言(既有人類語言又有程序),詞匯([email]地址,鏈接,郵政編碼,**號碼,產(chǎn)品號),類型(文本,HTML,PDF,圖像,聲音),有些甚至是機(jī)器創(chuàng)建的文件(log文件,或數(shù)據(jù)庫的輸出)。
可以從文檔中推斷出來,但并不包含在文檔中的信息稱為隱含信息。
隱含信息包括來源的信譽(yù),更新頻率,質(zhì)量,訪問量和引用。
不但隱含信息的可能來源各種各樣,而且被檢測的信息也大不相同,相差可達(dá)好幾個(gè)數(shù)量級。
例如,一個(gè)重要主頁的使用量,象Yahoo 每天瀏覽數(shù)達(dá)到上百萬次,于此相比無名的歷史文章可能十年才被訪問一次。
很明顯,搜索引擎對這兩類信息的處理是不同的。
Web與有組織結(jié)構(gòu) *** 之間的另外一個(gè)明顯區(qū)別是,事實(shí)上,向Web上傳信息沒有任何限制。
靈活利用這點(diǎn)可以發(fā)布任何對搜索引擎影響重大的信息,使路由阻塞,加上為牟利故意操縱搜索引擎,這些已經(jīng)成為一個(gè)嚴(yán)重的問題。
這些問題還沒有被傳統(tǒng)的封閉的信息檢索系統(tǒng)所提出來。
它關(guān)心的是元數(shù)據(jù)的努力,這在Web搜索引擎中卻不適用,因?yàn)榫W(wǎng)頁中的任何文本都不會(huì)向用戶聲稱企圖操縱搜索引擎。
甚至有些公司為牟利專門操縱搜索引擎。
4 系統(tǒng)分析(System Anatomy)首先,我們提供高水平的有關(guān)體系結(jié)構(gòu)的討論。
然后 ,詳細(xì)描述重要的數(shù)據(jù)結(jié)構(gòu)。
最后,主要應(yīng)用:抓網(wǎng)頁,索引,搜索將被嚴(yán)格地檢查。
Figure 1. High Level Google Architecture 4.1Google體系結(jié)構(gòu)概述這一節(jié),我們將看看整個(gè)系統(tǒng)是如何工作的(give a high level),見圖1。
本節(jié)不討論應(yīng)用和數(shù)據(jù)結(jié)構(gòu),在后幾節(jié)中討論。
為了效率大部分Google是用c或c++實(shí)現(xiàn)的,既可以在Solaris也可以在Linux上運(yùn)行。
Google系統(tǒng)中,抓網(wǎng)頁(下載網(wǎng)頁)是由幾個(gè)分布式crawlers完成的。
一個(gè)URL服務(wù)器負(fù)責(zé)向crawlers提供URL列表。
抓來的網(wǎng)頁交給存儲(chǔ)服務(wù)器storeserver。
然后,由存儲(chǔ)服務(wù)器壓縮網(wǎng)頁并把它們存到知識(shí)庫repository中。
每個(gè)網(wǎng)頁都有一個(gè)ID,稱作docID,當(dāng)新URL從網(wǎng)頁中分析出時(shí),就被分配一個(gè)docID。
由索引器和排序器負(fù)責(zé)建立索引index function。
索引器從知識(shí)庫中讀取文檔,對其解壓縮和分析。
每個(gè)文檔被轉(zhuǎn)換成一組詞的出現(xiàn)情況,稱作命中hits。
Hits紀(jì)錄了詞,詞在文檔中的位置,最接近的字號,大小寫。
索引器把這些hits分配到一組桶barrel中,產(chǎn)生經(jīng)過部分排序后的索引。
索引器的另一個(gè)重要功能是分析網(wǎng)頁中所有的鏈接,將有關(guān)的重要信息存在鏈接描述anchors文件中。
該文件包含了足夠的信息,可以用來判斷每個(gè)鏈接鏈出鏈入節(jié)點(diǎn)的信息,和鏈接文本。
URL分解器resolver閱讀鏈接描述anchors文件,并把相對URL轉(zhuǎn)換成絕對URL,再轉(zhuǎn)換成docID。
為鏈接描述文本編制索引,并與它所指向的docID關(guān)聯(lián)起來。
同時(shí)建立由docID對組成的鏈接數(shù)據(jù)庫。
用于計(jì)算所有文檔的PageRank值。
用docID分類后的barrels,送給排序器sorter,再根據(jù)wordID進(jìn)行分類,建立反向索引inverted index。
這個(gè)操作要恰到好處,以便幾乎不需要暫存空間。
排序器還給出docID和偏移量列表,建立反向索引。
一個(gè)叫DumpLexicon的程序把這個(gè)列表和由索引器產(chǎn)生的字典結(jié)合在一起,建立一個(gè)新的字典,供搜索器使用。
這個(gè)搜索器就是利用一個(gè)Web服務(wù)器,使用由DumpLexicon所生成的字典,利用上述反向索引以及頁面等級PageRank來回答用戶的提問。
4.2主要數(shù)據(jù)結(jié)構(gòu)經(jīng)過優(yōu)化的Google數(shù)據(jù)結(jié)構(gòu),能夠用較小的代價(jià)抓取大量文檔,建立索引和查詢。
雖然近幾年CPU和輸入輸出速率迅速提高。
磁盤尋道仍然需要10ms。
任何時(shí)候Google系統(tǒng)的設(shè)計(jì)都盡可能地避免磁盤尋道。
這對數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)影響很大。
4.2.1大文件大文件BigFiles是指虛擬文件生成的多文件系統(tǒng),用長度是64位的整型數(shù)據(jù)尋址。
多文件系統(tǒng)之間的空間分配是自動(dòng)完成的。
BigFiles包也處理已分配和未分配文件描述符。
由于操縱系統(tǒng)不能滿足我們的需要,BigFiles也支持基本的壓縮選項(xiàng)。
4.2.2知識(shí)庫 Figure 2. Repository Data Structure 知識(shí)庫包含每個(gè)網(wǎng)頁的全部HTML。
每個(gè)網(wǎng)頁用zlib(見RFC1950)壓縮。
壓縮技術(shù)的選擇既要考慮速度又要考慮壓縮率。
我們選擇zlib的速度而不是壓縮率很高的bzip。
知識(shí)庫用bzip的壓縮率接近4:1。
而用zlib的壓縮率是3:1。
文檔一個(gè)挨著一個(gè)的存儲(chǔ)在知識(shí)庫中,前綴是docID,長度,URL,見圖2。
訪問知識(shí)庫不需要其它的數(shù)據(jù)結(jié)構(gòu)。
這有助于數(shù)據(jù)一致性和升級。
用其它數(shù)據(jù)結(jié)構(gòu)重構(gòu)系統(tǒng),我們只需要修改知識(shí)庫和crawler錯(cuò)誤列表文件。
4.2.3文件索引文件索引保存了有關(guān)文檔的一些信息。
索引以docID的順序排列,定寬ISAM(Index sequential access mode)。
每條記錄包括當(dāng)前文件狀態(tài),一個(gè)指向知識(shí)庫的指針,文件校驗(yàn)和,各種統(tǒng)計(jì)表。
如果一個(gè)文檔已經(jīng)被抓到,指針指向docinfo文件,該文件的寬度可變,包含了URL和標(biāo)題。
否則指針指向包含這個(gè)URL的URL列表。
這種設(shè)計(jì)考慮到簡潔的數(shù)據(jù)結(jié)構(gòu),以及在查詢中只需要一個(gè)磁盤尋道時(shí)間就能夠訪問一條記錄。
還有一個(gè)文件用于把URL轉(zhuǎn)換成docID。
它是URL校驗(yàn)和與相應(yīng)docID的列表,按校驗(yàn)和排序。
要想知道某個(gè)URL的docID,需要計(jì)算URL的校驗(yàn)和,然后在校驗(yàn)和文件中執(zhí)行二進(jìn)制查找,找到它的docID。
通過對這個(gè)文件進(jìn)行合并,可以把一批URL轉(zhuǎn)換成對應(yīng)的docID。
URL分析器用這項(xiàng)技術(shù)把URL轉(zhuǎn)換成docID。
這種成批更新的模式是至關(guān)重要的,否則每個(gè)鏈接都需要一次查詢,假如用一塊磁盤,322‘000’000個(gè)鏈接的數(shù)據(jù) *** 將花費(fèi)一個(gè)多月的時(shí)間。
4.2.4詞典詞典有幾種不同的形式。
和以前系統(tǒng)的重要不同是,詞典對內(nèi)存的要求可以在合理的價(jià)格內(nèi)。
現(xiàn)在實(shí)現(xiàn)的系統(tǒng),一臺(tái)256M內(nèi)存的機(jī)器就可以把詞典裝入到內(nèi)存中。
現(xiàn)在的詞典包含14000000詞匯(雖然一些很少用的詞匯沒有加入到詞典中)。
它執(zhí)行分兩部分—詞匯表(用null分隔的連續(xù)串)和指針的哈希表。
不同的函數(shù),詞匯表有一些輔助信息,這超出了本文論述的范圍。
4.2.5 hit list hit list是一篇文檔中所出現(xiàn)的詞的列表,包括位置,字號,大小寫。
Hit list占很大空間,用在正向和反向索引中。
因此,它的表示形式越有效越好。
我們考慮了幾種方案來編碼位置,字號,大小寫—簡單編碼(3個(gè)整型數(shù)),緊湊編碼(支持優(yōu)化分配比特位),哈夫曼編碼。
Hit的詳細(xì)信息見圖3。
我們的緊湊編碼每個(gè)hit用2字節(jié)。
有兩種類型hit,特殊hit和普通hit。
特殊hit包含URL,標(biāo)題,鏈接描述文字,meta tag。
普通hit包含其它每件事。
它包括大小寫特征位,字號,12比特用于描述詞在文檔中的位置(所有超過4095的位置標(biāo)記為4096)。
字號采用相對于文檔的其它部分的相對大小表示,占3比特(實(shí)際只用7個(gè)值,因?yàn)?11標(biāo)志是特殊hit)。
特殊hit由大小寫特征位,字號位為7表示它是特殊hit,用4比特表示特殊hit的類型,8比特表示位置。
對于anchor hit八比特位置位分出4比特用來表示在anchor中的位置,4比特用于表明anchor出現(xiàn)的哈希表hash of the docID。
短語查詢是有限的,對某些詞沒有足夠多的anchor。
我們希望更新anchor hit的存儲(chǔ)方式,以便解決地址位和docIDhash域位數(shù)不足的問題。
本站其他內(nèi)容推薦
1、edify open-ended padding whelm Mammalia sedimentation Archibald soundless Copernican squabble
2、Ringo中文翻譯,Ringo是什么意思,Ringo發(fā)音、用法及例句
3、repeats中文翻譯,repeats是什么意思,repeats發(fā)音、用法及例句
4、pigsty中文翻譯,pigsty是什么意思,pigsty發(fā)音、用法及例句
5、采購員面試,面試采購應(yīng)注意哪些細(xì)節(jié)
6、rust翻譯,rust是什么意思,rust中文翻譯,rust發(fā)音、用法及例句
7、tonnage是什么意思,tonnage中文翻譯,tonnage發(fā)音、用法及例句
8、養(yǎng)育的近義詞,養(yǎng)育是什么意思,養(yǎng)育的同義詞,養(yǎng)育的反義詞
9、加強(qiáng)的英文,英語,reinforce是什么意思,reinforce中文翻譯,reinforce怎么讀、發(fā)音、用法及例句
10、包裹的英文,英語,encases是什么意思,encases中文翻譯,encases怎么讀、發(fā)音、用法及例句
11、nowt
版權(quán)聲明: 本站僅提供信息存儲(chǔ)空間服務(wù),旨在傳遞更多信息,不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任,不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的,請發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。