2016-12-21
很多新手在做网站的时候忽略了SEO优化的重要一步,那就是搜索引擎的作原理,搜索引擎的工作原理简单分为这么几个步骤:首先步是抓取→第二部是建库→放到数据库中进行排序→百度通过分析用户的需求把用户需要的结果展示的用户面前。如果网站需要被搜索到,那么必须知道你的站存在,抓取,过滤,目前中国400万个网站,数据是以亿计算的,百度是不会把所有的页面都抓取的。当然百度认为有价值的才会建立索引,就是我们经常说的收录,前提是知道链接的存在。
那么怎样才能让网站内容被搜索引擎更好的抓取到并且有良好的收录呢?这里有两个方式:1.主动提交sitemap网站地图到站长平台;2.被动抓取。发外链引蜘蛛,很多人发的是首页的链接,这对网站权重以及排名是非常有影响的,这一点大家一定要注意!
主动提交和被动抓取到底哪个好?其实这两者没任何区别。首先要了解知道你的站为什么不抓取。
首先、分析这个域名以前是否被处罚过。如果被处罚过,那就需要4至6周的考核期,这个时间段如果网站正常操作,就不会有问题。如果百度即使知道链接的存在,还不会抓取。就要做个域名调查,先把域名在百度或谷歌查下,看看这个域名是否有人用过,有可能别人用过的域名,没有继续续费,说明这个域名以前是有过违规操作的。
第二、蜘蛛根本来不了。蜘蛛访问这个域名的时候进行dns解析,域名转为ip,找到ip所在服务器进行访问,如果dns做了手脚,或者空间商做手脚,导致蜘蛛没法抓。空间商屏蔽蜘蛛,是会产生压力
百度站长平台里面压力反馈,抓取压力即搜索引擎在单位时间内对一个网站服务器访问的频率和总次数。如果0,证明没去。压力值716,这个数值只能证明搜索引擎去,但是去哪些页面不知道。如果去了只去首页,或你想被收录的页面都没去,没访问到内页,你看这个值也没什么用,那怎么看有没有来抓取呢?
服务器日志
看蜘蛛访问哪些页面。如果有独立的服务器,vps可以自己搞(光年日志分析是一款很不错的工具),还要去判断真假蜘蛛,因为百度蜘蛛不一定是真的,在站长工具对网站查询时,也会产生假蜘蛛。
1.看日志,需要判断真假蜘蛛,有些蜘蛛并不是真的,有些人模拟蜘蛛对网站采集,这个时候就会产生假蜘蛛。
2.如果网站是动态程序,把网站设置成伪静态,日志记录的路径都是动态的,不会记录伪静态,如果是纯静态的就可以直接看。因为做成伪静态很难分析路径。