* 新闻详情- */>
免费预约专业提供网站解决方案
对技术开发者,百度框计算平台拥有大量有待开发的资源,对技术开发者来说是很有诱惑力的挑战。
首先你不得不明确一个观念:每一个网站所获取的搜索引擎爬虫在单位时间内的抓取量是一定的,这个量的多少是由网站本身权重来决定的。网站权重高,抓取量就大,网站权重低抓取量就比较少。原因是:搜索引擎也有成本,每一只蜘蛛都是成本,不可能不要钱的把蜘蛛的派出去。所以如果在一个权重比较低的网站里,它的页面比较多,搜索引擎爬虫也不敢确定你网页的质量,如果它拼命的爬取的话,万一出现抓取错误了怎么办,不是白白浪费资源吗。所以我们做数据分析的时候,就一定要站在大前提下进行分析,爬虫量在一定时间内是恒定的,我们要分析的就是如何通过数据把这些爬虫量的爬取效率最大化。
什么效率最大化,我这有解释,爬虫量是一定的,如果80%的量来到你网站抓取的都是没有用的页面(比如关于我们,联系我们这些页面),那么就只剩下20%的资源去抓取有用的页面了,这样的效率你想要吗?所以我们需要去分析日志,分析爬虫抓取的爬取情况来进行调整,通过robots.txt和nofolow来引导爬虫去爬你认为有用的页面。这一点可以去参考:五大基本维度分析网站日志
比如,有一个朋友做了一个网站,流量排名都比较不错,于是就拿着这个网站的模板重新做了个网站,但是却发现网站收录都不怎么收录了,那么这是模板的问题吗?肯定不能随便下判断,首先去查看日志:发现搜索引擎爬虫只抓取图片和CSS文件,而html页面根本都不爬取。然后用百度站在工具的爬取诊断那里做测试,发现返回的是500,这样问题就找出来了,找到是服务器空间配置的问题,阻止了爬虫网站,在调试了空间之后,问题就解决了,这个就是查询日志的威力。
上一篇:宁夏搜索引擎服务
下一篇:深圳南昌化工有限公司网站优化
申请获取免费网站建设解决方案