一个上万个页面的网站,是不是每一篇都会收录,这取决于什么,从百度或者GOOGLE那边,个人估计,爬行程序下载页面后,会根据一些关键字与已存在的关键字的网页进行比较,如果相似度太高,就凤有必要收录了,因为数据库已经有了吗,所以一个很重要的因素就是原创,通过页面代码的比较,如果没有与此相似的页面,那么我想程序会入库的。

我现在有一个站,每一篇文章一发表,基本在GOOGLE上都有收录,而百度好象就不一样了,那么我想,是不是我的内容与别人有重复,或者有外链,其实首先要引蜘蛛过来,这一点不成问题,现在通过记录,以现蜘蛛每天都来很多次,在这种情况下,所以内容的质量我想是最主要的。