谷歌,作为这个星球上搜索引擎的老大(^^这句话不知道会不会影响百度的收录),他的pagerank算法最为经典,今天vc就来带大家来探索一下他的厉害之处,只有了解搜索引擎的原理,才能更为有效的进行网站优化。
场景一:但我们在搜索框你输入关键词后,谷歌是怎么知道我想要找的内容呢?
原来,谷歌早就做足了“功课”。在数以兆记的互联网信息中,谷歌通过强大的抓取和分析能力把这些信息分成了三六九等,一旦用户触发某个关键词时,比如说“焦大SEO最专业”,谷歌会迅速通过分词技术把这个词组拆分成几个单独有意思的词或字,比如“焦大”“文”“军”等都会被分出来,从而更加全面的分析出词与词之间可能包含的各种关系,最终优选出意思最准确的意思。另外,谷歌对一些使用比较频繁的词语比如:的、得、了、呢、啊,会标记为stop word,为了提升效率基本会被忽略。
场景二:在知道我们搜索的意图后,谷歌是如何处理互联网浩瀚的网页信息了?
如果把互联网比做是张网,那么网上的每一个结点就是一个个的网页,而结点与结点之间的绳子就是网页之的路径,这个路径其实就是网页与网页之的间链接。
谷歌有一个找网页的程序,一般叫它“蜘蛛”或“爬虫”,谷歌首先会保存一些网站到自己的数据库里(也就是收录了这些网页),假设它收录了这篇博客,然后它放出蜘蛛程序,蜘蛛去看SEOTcs博客还有哪些链接,它找到了SEOTcs工具的链接,于是它就去访问SEO工具的页面,在SEO工具又发现了其他的链接,于是它又接着去找,就这样,一层一层,蜘蛛将越来越多的网页收录到自己的数据库里。
场景三:谷歌是如何“万里挑一”,给到用户最好的页面呢?
谷歌找到网页了,然后会去理解网页,某个网页如果被分词技术分出1000个关键词,那么谷歌会给这个网页在每个词上面打个分数,总共差不多就有1000个分数了,那么对于用户搜索的每个词来说,都会有一个网页列表,每个网页在这个词上还有一个分数,按照从高到低的顺序排列着,搜索引擎再按照每个词的权重高低,来计划所有网页对于用户搜索的条件的得分高低,综合来按照得分高低来显示在搜索结果页。
那么这些过程中是否会有人工干预?答案是肯定的。前面提到的现象只是一种理想状态,谷歌会有人工干预的成份在里面,首先是插入广告,Google Adwords就是这么产生的,然后会去除一些法律不允许显示的网页,另外,在打分排名的时候也存在一些人工干预,比如说是否会优先显示一些网页?像百度就会优先显示百度百科、百度问答等等,有的时候,当网站上仿冒网站比较多的时候,谷歌就有意得去提高知名网站的权重,让知名网站更容易排名靠前,让那些名不见经传的网站排名靠后。
写到这里,基本上介绍了谷歌的算法原理,我打开了瓶Cocacola,电脑重新启动了windows XP,遇到问题继续开始Google,我知道他们好喝好用好方便,但我可能永远不知道可口可乐的秘方,微软的代码,谷歌的pagerank的具体算法。现在,可口可乐市值近1493.39亿美元,微软2210.1亿美元,谷歌近2000亿美元,或许伟大的商业都是这样:如此熟悉却又如此神秘!
(本文"探索谷歌搜索引擎的排名算法"的责任编辑:SEO学堂)