seo实战今天在网上看到google排名原理的一篇文章,个人觉的很好,在些转载一下,下面会给出出处。

搜索营销收录网站的原理

· 探寻蜘蛛和探寻机器人

搜索引擎要知道网上的新生事物,就得派人出去搜集。在Yahoo创办初期,许 多编辑天天泡在网上,访问新鲜网站,然后将搜集来的信息整理成序。当时的网站数量少,做起来比较容易;而现在新网站的出现数量、老网的更新都是爆炸式的, 靠人工是不可能完成这个任务的。所以,搜索引擎的发明者就设计了计算机程序,派它们来执行这个任务。

探 测器有多种叫法,也叫crawler(爬行器)、spider(蜘蛛)、robot(机器人)。这些形象的叫法是描绘搜索引擎派出的蜘蛛机器人爬行在互联 网上探测新的信息。Google把它的探测器叫做Googleboot,百度就叫Baiduspider,MSN叫MSNbot,而Yahoo则称为 Slurp。这个探测器实际上是人们编制的计算机程序,由它不分昼夜地进入访问各个网站,取回网站内容、标签、图片等,然后依照搜索引擎的算法给它们制定 成索引。所以,这可不是“爬行”而是以光速来访问的。

一个搜索引擎会同时派遣出许多探测器,这些 “机器人”或者从站主直接呈递的网站URL去访问,或者由一个网络用户所装的搜索引擎工具栏(比如Google工具栏)得知用户去的网站,或者是从一个网 站中指向另一个网站的链接过去。探测器不一定是从网站的首页进入访问,所以,如果你要探测器访问你其他的网页,那么这个进入页就需要和其他网页相连。达到 这个目的最容易的办法就是在每一页都加入指向首页的链接。
但是,探测器对许多网站是不能完整取回信息的, 这个大多是由于网站的设计没有按照搜索引擎探测器的思路来进行优化。比如,如果一个网页比较大,探测器也只能截取网页的首部,而且只能跟着少量的链接走。 Google目前能够吸引100KB的文件,Yahoo会多一点。这个可以通过实验来检验。将一个搜索关键词放在一个很长的网页(约160KB)最后部 分,然后看Google的缓存(cache)中显现网页的大小是多少。如果不出意料,Google的cache说这个网页只有10KB。很显然,一部分内 容没有被Google抓走。

这个现象告诉我们不要将网页设计得很长、很大。如何将网站设计得更佳方 便搜索引擎来访,是搜索引擎优化的重要应用技术。

·Google的Freshbot和Deepbot

Google 使用两个探测器来抓取网站上的内容:Freshbot和Deepbot。深度探测器(Deepbot)每月出击一次,受访内容在Google的主要索引之 中。刷新探测器(Freshbot)是持续不断地发现新的内容,例如新的网站、论坛、博客等。看起来,Google是发现了一个新的网页,之后频繁地在 放,来看看是否还有什么新的更新。如果有,这个新网站就被加入到刷新探测器的名单中进行访问。

刷新 探测器取得的结果是汇编到一个单独的数据库里。每一次刷新探测器进行新的一轮循环的时候都被重写。刷新探测器和Google主要的索引是合在一起提供搜索 结果的。这就是说,新的信息可能很快就出现在搜索结果中然后就消失,直到一两个月后在Google主要索引中重新浮现。如果一个网页在Google主要索 引中已经存在,刷新探测器取得的关于这一页的更新结果会出现几天,然后又退回原来的版本,直到深度探测器来访问这一页。

Google 的操作模式就是收集——采编/索引——反馈的工作程序。事实上,搜索引擎包括下列几个元素:
1、抓取状态 ——搜索引擎派出探测器到互联网上不知疲倦地搜集网页;
2、网页仓库——搜索来的网页要集中在一个地方储 藏,等候索引处理;
3、索引整理——将网页分门别类,进行压缩,等候进行索引编类,而未压缩的原始网页资 料被删除掉;
4、索引状态——将压缩后的网页编目在不同的索引之下;
5、 问询状态——将用户问询所用的白话转变成搜索引擎读懂的计算机语言,来咨询各个索引求得相关答案;
6、排 名状态——搜索引擎将相关答案根据一定的标准以单子的形式排列给用户。搜索引擎认为最好的答案被推荐在首位,较次的排列随后,以此类推。

1.3.2 搜索营销如何提供搜索结果

·搜索引擎的信息索引工作

前面我们 知道了搜索引擎出击互联网去收集各个网页,力图带回最大值的信息。但是,这些信息回来之后,是暂时放在一个“仓库”的。在用户提出搜索问询的时候,并不是 这些一手信息反馈给用户,而是加工后的有序网页。不经过这些加工,在服务用户问询的时候无法迅速给予回答。这个整理一手网页、编制索引的过程也是搜索引擎 评判网站质量的过程。只有有价值的信息才会送入索引。举例说,搜索引擎设立一个索引叫“搜索引擎优化”,它就会在它的仓库里寻找有关“搜索引擎优化”的网 页,把它们收录在“搜索引擎优化”这个标签下面,等有用户搜索“搜索引擎优化”的时候,它就在这一堆网页中寻找答案。

根 据美国《Google的佩奇等级及其他》一书的笔者蓝维尔和迈尔分析,这个索引有三种:第一种是内容索引,包括网页的关键词、标题、描述语句、链接源头文 字都以一种反向数据结构被压缩,这种结构就好像一本书的索引总是在书的最后部分一样。更多的有价值的信息,如网页链接也被收集,放入结构索引之中,这是第 二种索引。最后一种是特别索引,集中图片、PDF文件等供特别搜索问询,比如图片搜索。

·搜索引擎的信息反馈工作

当 用户在搜索框里面敲入搜索关键词按下搜索键的时候,搜索引擎便紧张地开始工作,争取在最短的时间(几百万分之一秒)提供搜寻结果。Google一般将整个 执行时间控制在半秒之内。

要在这么短的时间里提供准确的结果,临时计算是不可能的。因此,搜索引擎 在内容索引和结构索引的过程中都有个预备计算。在搜索引擎执行了计算后,出来符合用户问询条件的网页太多。一般过去的搜索引擎就此打住,将信息就反馈给读 者了。Google进一步将结构交付给排名程序,请排名程序将相关信息按照从最相关到最不相关进行排列。排名程序于是从预备计算过的索引中排列进行比较, 给网页的内容进行打分,将综合的结果提供给用户。

1.3.3 Google排名原理

·Google的PageRank

PageRank(佩 奇等级)是Google能在20世纪90年代后期超越其他搜索引擎的一个重要概念和法宝。“佩奇等级”是Google算法的重要内容。2001年9月 Google被授予美国专利,专利人是Google创始人之一拉里?佩奇(Larry Page)。因此,PageRank里面的Page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。

“佩 奇等级”着重考察网站的权威性,即越有权威的网站越容易被其他网站主动链接。被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度” ——衡量多少人愿意将他们的网站和您的网站挂钩。“佩奇等级”这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的 权威性越高。

佩奇的初衷是非常理想化的。他认为,一个网站的好坏不是由网站自己吹出来的,也不是网 站自己做假做出来的,而是大家评选出来的。你链接一个网站,那个网站就获得了一个投票。这样的评比结果很难被操纵,网站的排名也就很难由作弊获得。但是, 这个逻辑现在一样遭遇了挑战。搜索引擎优化者为了提升一个网站的“佩奇等级”价值,总是在试图获取最多的导入链接,因为一个导入链接就相当于一份投票。更 多的网主靠虚假的链接来积累这个“投票”来作弊。因此,Google现在对于搜索的排名并不像以前那样重视“佩奇等级”。

“佩 奇等级”评价一个网页用1-10的数字来显示在Google工具栏中,如下图所示,这个数字就是佩奇等级的值,简称PR值,PR值越大表示网站越重要。7就是指这个 网页的PageRank值

公式:
PR(A)= (1-d)+d(PR(Ti)/C(Ti)+…+PR(Tn)/c(Tn))
其中,PR(A):网页 A的佩奇等级(PR)。
PR(Ti):链接网页A的网页Ti的佩奇等级(PR)。“i”可以从0到 n,“n”是链接的总数,这个链接可以来自任何网站的导入链接;
C(Ti):网页Ti往其他网站链接的数 量;(导出链接)
d:阻尼系数,介于0-1之间,Google设为0.85。
解 释:我们可以看到网页A的PR是由链接它的其他网页Ti所决定的。在网页Ti中如果有一个链接指向网页A,那么A就得到了一个“投票”,而这个投 票来自网上任何一张网页。每个“投票”都是表示一份“支持”。越多的链接指向网页A,网页A的PR值或者等级就越高。没有链接就是没有一个网页支持A。但 是,链接网页A的那些Ti网页的PR值就不相同了。这里导出链接扮演了角色,网页Ti的导出链接越多,点击指向网页A的可能性就越小。所以,网页Ti的 PR值总是由导出链接的数量C(Ti)加权来决定。这个就解释了为什么不同的网页Ti给予网页A施加的影响是不同的。加权的各个网页Ti的PR值和被阻尼 指数d相乘。“d”的值一般设为0.85。

我们不鼓励可以去追求PR,因为决定排名的因为可以有上 百种。但是网站设计者要充分认识佩奇等级在Google判断网站质量中的重要作用,从设计前的考虑到后期网站更新都要给予佩奇等级足够的分析,很好地利 用。

·PageRank 的清零

从2001年底,针对使用嫌疑手段的网站,Google引入了 一个制裁措施——给这个网站的PR变为零。不管这个网站有多少人链接它,它的所有网页或者至少许多页的PR在Google工具栏中显示为零。出现这个现象 还可能是因为一个网站太年轻,Google还没有来得及给它评判。Google PR一般一年更新四次,所以不可能新网站一上线就获得PR值。你的网站很可能在相当长的时间里面看不到PR值的变化,特别是一些新的网站。PR值暂时没 有,这不是什么不好的事情,耐心等待就行了。

PR值为零的另外一个原因是一个网站缺少导入链接,即 没有人来链接它。但是,如果一个网站之前的搜索排名都很好,并且没有其他的重大改变,而突然出现了PR=0的情况,我们认为,这个网站在接受Google 的惩罚。

·Google Update和Google Dance

Google Dance是过去Google剧烈更新网站排名的活动。在这个“跳舞”的过程中,Google所储存的索引都被重新洗牌。有没有发生Google Dance,搜索结果中的变化便一目了然。这个过程大概是每36天1次或者1年10次。Dance可以说是地震,一开始猛烈之后还有小震,要等1个月的时 间才能平息。这就是Google的索引更新叫做Dance的原因。
以往在Google没有研发出一种技术 来能够经常性搜索新网站以便不时地调整索引的时候,Google Dance是它全面更新的手段。方法主要是2004年之前使用的。在那个时候,网站在更新后、实施SEO之后要等到Dance后才能有新的排名 效果。在每一次的Dance之前,已经取得很好的排名的网站生怕下一次的Dance将排名毁掉。因此,Google Dance一直是搜索引擎优化者心中最关心的事情。人们对它是又爱又恨,逐渐也成为了Google神化的一个标志。
现 在,Google的更新一般是非常频繁的,能做到每日进行,而且剧烈程度非常小,往往是算法的微小修改和索引的小调整。但是,就在大家认为Google Dance不再有的时候,2006年6月12日Google又经历了一次大的更新。许多网站的排名又不见了,或者只有首页还能被搜索到。正巧这个 Dance发生在美国的父亲节,所以又被称为“Big Daddy Update”(老爸更新)。
Google Update和Google Dance是Google完善自己的算法、反对垃圾泛滥的努力。而这个努力的标志性的历史事件是2003年末的佛罗里达更新(Florida Update)。

1.3.4 影响Google排名的因素

· 利于Google排名的因素

排名 得分 分类 详细说明
1 4.9 关键词 关键词在网站TITLE上的使用
2 4.4 外部链接 外部链接的锚文字
3 4.4 网站品质 网站的外部链接流行度、广泛度
4 4.1 网站品质 域名年龄(从被搜索引擎索引开始计算)
5 4 页 面质量 网站内部链接结构
6 3.9 网站品质 网站的外部链接页面内容与关键词的相关性
7 3.9 网站品质 网站在主题相关的网站群中的链接流行度
8 3.7 关键词 关键词在网页内容上的应用
9 3.6 外部链接 外部链接页面本身的链接流行度
10 3.5 网站品质 网站新外部链接产生的速率
11 3.5 页面质量 导出链接的质量和相关性
12 3.5 外部链接 外部链接页面的主题性
13 3.5 外部链接 外部链接页面在相关主题的网站社区中的链接流行度
14 3.4 关键词 页面内容和关键词的相关性(语义分析)
15 3.4 页面质量 页面的年龄
16 3.3 关键词 关键词在H1标签中的使用
17 3.2 网站品质 网站收录数量
18 3.2 外部链接 链接的年龄
19 3.1 网站品质 用户查询的关键词与网站主题的相关性(防止 Google bombing)
20 3.1 外部链接 链接的周围文字
21 3 关键词 关键词在网站域名中的使用
22 3 页面质量 页面内容的质量
23 2.8 关键词 关键词在页面URL中的使用
24 2.8 关键词 关键词在H2、H3等Headline标签 中的使用
25 2.8 页面质量 网站的结构层次
26 2.8 网站品质 用户行为
27 2.8 外部链接 同域名下外部链接页面的链接流行度
28 2.6 关键词 图片的关键词优化
29 2.6 网站品质 Google的人工授予权重
30 2.6 网站品质 域名的特殊性(.edu .gov等)
31 2.5 网站品质 新页面产生的速率
32 2.5 外部链接 外部链接的创建和更新时间
33 2.5 外部链接 外部链接网站域名的特殊性
34 2.4 外部链接 外部链接网站的PR值
35 2 关键词 关键词在Meta Description中的使用
36 2 网 站品质 用户搜索网站的次数
37 1.9 页面质量 URL中“/”符号的出现次数
38 1.8 页面质量 拼写和语法的正确性
39 1.4 页面质量 HTML代码是否通过W3C认证
40 1.3 网站品质 网站是否通过Google Webmaster Central的确认
41 1.2 关键词 关键词在Meta Keywords中的使用

分 类总得分:
网站品质:39.9
外部链接:31.5
关 键词:29.7
页面质量:21.8

·影响 Google排名的负面因素

排名 得分 详 细说明
1 3.8 服务器经常无法响应
2 3.6 与Google已经收录的内容高度重复
3 3.6 链向低质量或垃圾站点
4 3.3 网站大量页面存在重复的META标签
5 3.3 过分堆砌关键词
6 3.3 参与链接工厂或大量出售链接
7 2.8 服务器响应时间非常慢
8 2.1 外部链接来自垃圾站点
9 2.1 非常低的流量,用户行为反映差

为了尊重一下别人的劳动。标明出处http://www.dijiuqu.org/seo/949.html