优乐园
首(shǒu) 页 APP开发 网站建(jiàn)设 微信(xìn)开发 解决方案 公司(sī)动态(tài) 联系(xì)我们
企业数字(zì)化(huà)的(de)引领者(zhě) 咨询服务热线:0371-63716361
优乐园和泛古动态
优(yōu)化常识
常见(jiàn)问(wèn)题
建站知识
设计心得
WAP建(jiàn)站(zhàn)百科
手机建站行业资(zī)讯
首页轮播
首(shǒu)页轮播(bō)手(shǒu)机站
郑州网站建设(shè)
联系我们
常见问题
经典(diǎn)案例
Google是如何收录及(jí)排序(xù)网(wǎng)页的
我们遇到的最常见的(de)问题之一是“Google是(shì)如何判定(dìng)哪个结果出现在搜索结果的前茅?”,Matt Cutts给(gěi)我们(men)简单地揭示了如何抓(zhuā)取、收录和给网页评级。

抓取和收录
当你看到出现(xiàn)在Google的(de)搜索结果的那个网页(yè)之前(qián),Google在后台已经做了许多步骤。Google的第一步(bù)是抓取(qǔ)和收录互(hù)联网上的数十(shí)亿的(de)网页,这个工作时由Google的(de)机器人Googlebot来(lái)完成的(de),它浏览网络服务(wù)器抓取(qǔ)文件。 抓取的程序并不是(shì)漫(màn)无目的地在互联网上瞎逛,它访问服(fú)务器的特定的网页,然后扫描网页上的超文本链接,如(rú)果(guǒ)有新(xīn)的文(wén)件(jiàn)也是这样抓取(qǔ)得(dé);蜘蛛程序给(gěi)每个得(dé)到的网页一个号码(mǎ),这个号码指向它抓(zhuā)取的网页。

蜘蛛程序(xù)抓(zhuā)取了很多的(de)网页(yè),但这些(xiē)网页还不是便于搜索的。如果没有一个索(suǒ)引,你要查(chá)询一个词,比如“国内战(zhàn)争”,Google的服务器每次都要读取每一个文件(jiàn)的所(suǒ)有内容。

因此,第二步就是(shì)建(jiàn)立(lì)索引。我们(men)不是去扫描每一个文件的(de)所有内容(róng),我们巧(qiǎo)妙地(dì)进行数据的“转换”,列出每(měi)一个文件所包含的(de)特定的词,例(lì)如,“国内”这个词可能出现在(zài)文件3,8,22,56,68和92当中,而“战(zhàn)争”这个词出现在文件2,8,15,22,68和77中。

建立(lì)好索引之(zhī)后,我(wǒ)们就(jiù)可以开(kāi)始对(duì)网页进行评级,决定网页的相关程(chéng)度。假设有人在Google的搜索栏输入“国内战争”进行查询,为了提交搜索结果和(hé)对结果进行评分,我(wǒ)们要做两件事:

1. 找到包(bāo)含用户(hù)查询的词的(de)网页(yè)
2. 给(gěi)符合的(de)网页(yè)按照相关程度(dù)进行评级(jí)
Google开发(fā)出一个有趣的技巧来加速第一步:Google不是把整个(gè)索引存(cún)储在一(yī)台功能(néng)强(qiáng)大的计算机上,而是用千(qiān)百个计算机来(lái)存储(chǔ)这些信息。因为任务被(bèi)分解到许多的计算机,可以更快地找到(dào)所需的答(dá)案。 详细解释一下,假设一本书的目录有(yǒu)30页,如果一个人要在(zài)目(mù)录中查寻资料(liào),每(měi)次查询(xún)都(dōu)要花几秒钟;如果用30个人每人查询一页目录,显然(rán)要(yào)比一个人(rén)查(chá)询的速度快(kuài)很(hěn)多。同(tóng)样的,Google将数据分(fèn)别存(cún)储在许多计算机上(shàng),这样搜索(suǒ)的速度会大(dà)大加(jiā)快。

我们是如何找到那(nà)些包含用户(hù)搜索的词的(de)网页呢?回到(dào)“国内战争”的例子,“国内”这个词出现(xiàn)在文件3,8, 22, 56, 68 和92; “战争”出现在文件2, 8, 15, 22, 68和77,记下同时出现这(zhè)两个词的(de)文件。

国(guó)内(nèi) 3 8 22 56 68 92
战争 2 8 15 22 68 77
国内(nèi) 战(zhàn)争 8 22 68

这样我们(men)可以清楚地发现(xiàn)“国内”、“战争(zhēng)”这两个词(cí)同时出现的(de)在三(sān)个文件里 (8, 22, 和68)。 含(hán)有(yǒu)这(zhè)几个字(zì)的列表(biǎo)叫做“位置列表”,搜索文件包含这两个字,这叫(jiào)做交叉搜索位置列表。(较快(kuài)的交叉搜索(suǒ)的(de)方法是同时进行搜索,如果一个搜(sōu)索(suǒ)列(liè)表,22到68,那另一个(gè)就(jiù)可以开始搜索其他的)
对结果进(jìn)行评级
现(xiàn)在(zài)我们(men)已经有了一些包含用户搜索的关键词的网(wǎng)页,我们要(yào)对它(tā)们的相关程度进行评级。Google用许多参数进行评级(jí)。这当中PR算法是(shì)众所(suǒ)周知的。PageRank评估两个因(yīn)素:有多少个网页链接到这(zhè)个网页(yè),这些(xiē)链接网(wǎng)页的网站(zhàn)的质量如何。通过PageRank,五六个(gè)高质(zhì)量的站点的链接,比如www.cnn.com和www.nytimes.com比其他(tā)较(jiào)差的网站的链接要有价值的多。

但是除了PageRank,我们还(hái)用许(xǔ)多其它(tā)的(de)参数来进(jìn)行评级。例如,如果一个文(wén)件包含“国内”和“战争(zhēng)”这两个词排在(zài)一起,这个文件可能比一(yī)个讨(tǎo)论革命战争的文件(jiàn)(在文(wén)件的某个地方使用“国内”)的(de)相关程度高。还比如假设一个网页(yè)的标题是“国内战争”,比另一个标题为“19世纪(jì)美国(guó)服装”的网(wǎng)页相(xiàng)关度高得多。同样的,如果“国内战争(zhēng)”在网页中出现多次的网(wǎng)页比只出现一个(gè)的网页相关(guān)的程度也要(yào)高。假(jiǎ)设你是搜(sōu)索(suǒ)引擎,选择一个词查询,比如:国内(nèi)战争或回收,在Google上查询,从结果中挑选三到四(sì)页打印出来。从(cóng)每一张(zhāng)打印的(de)页面上找(zhǎo)出你(nǐ)的搜(sōu)索语(yǔ)句的每(měi)一个字(zì)然后用荧光笔标出来,然后把这几页贴(tiē)在墙上,退后几(jǐ)步眯(mī)着眼(yǎn)看(kàn),当(dāng)你不知道页面的内容,仅仅能(néng)看到那些有颜色的方块,你认为那一页是最相关的(de)呢?是(shì)不(bú)是有着大的标题和多次重复出现的颜色代(dài)表了较高的相(xiàng)关程度?你(nǐ)喜欢这些字出现在(zài)顶(dǐng)端还是(shì)底(dǐ)部?这些字出现的频(pín)率如何?这也是搜索引(yǐn)擎(qíng)如(rú)何判断网页的相关程度。

原(yuán)则上,Google总(zǒng)是试图找出可靠的和相关(guān)的网页(yè)。如果两个(gè)网页(yè)按(àn)照查询的(de)语句大(dà)致有相同的信息,Google通常选(xuǎn)择比较信得过的网站的网页。当然,如果有一些(xiē)因素表明这个网站的(de)网页相关(guān)度更高,Google经常也选(xuǎn)择PageRank较低的网站。

一旦Google完(wán)成了文件的列(liè)表(biǎo)和它们的评分(fèn),就给出得分最高的网页。Google同时从网页中摘录一小段包(bāo)含(hán)查(chá)询的关键词(cí)的句子;给出网(wǎng)页(yè)的链接。

对(duì)于这样的搜索工作,需要极大(dà)的数据运算量,一(yī)般说来,对于某个搜索,要有超过500台(tái)的服务(wù)器(qì)协同工作以求得(dé)最佳匹配的结果,当然,结果会在半秒内返回用(yòng)户。
如(rú)有任何疑问请联系我们,我(wǒ)们7*24小(xiǎo)时竭诚(chéng)为您(nín)服务!
0371-63716361
郑州优乐园和泛古软件 优乐园

主营(yíng)业务: 【APP开发】 【软件系统开发(fā)】 【移动应用开发】 【高端网(wǎng)站建设】 【网络(luò)营销】 【微信营销】 【微(wēi)信(xìn)系统开发】
业务咨询:0371-63716361 15638856138
公(gōng)司地址:郑州 二七区 航海中路升龙城(chéng)·二(èr)七中心A座10楼1009-1010(航海(hǎi)路与兴华南(nán)街交叉口西北角)
郑(zhèng)州泛(fàn)古软件科技(jì)有(yǒu)限公司 版权(quán)所(suǒ)有 © 2009-2022 豫ICP备14028268号  
留言反馈 | 了(le)解优乐园和泛古 | 联系优乐园和泛古(gǔ) | 站点地图(tú)    

优乐园
优乐园 客户咨(zī)询:
  在线客服
  在线客服
优乐园 售(shòu)后服务:
  售后(hòu)服务
  客(kè)户投诉
优乐园 在线(xiàn)时(shí)间(jiān):
8:30-18:30
在线留言反馈
在(zài)线咨(zī)询
经济型网站
 立即拥有