减少无效URL的爬行和索引

,原因包括:

  1.大量过滤条件页面内容重复或极为类似(大量复制内容将使网站整体质量下降)

  2.大量过滤条件页面没有对应产品,页面无内容(如选择“100元以下42寸LED电视”之类的)

  3.绝大部分过滤条件页面没有排名能力(排名能力比分类页面低得多)却浪费一定权重

  4.这些过滤条件页面也不是产品页面收录的必要通道(产品页面应该有其它内链帮助爬行和收录)

  5.爬行大量过滤条件页面极大浪费蜘蛛爬行时间,造成有用页面收录机会下降(过滤条件页面组合起来是巨量的)

  那么怎样尽量使这些URL不被爬行和索引、收录呢?前几天的一篇帖子如何隐藏内容也可能成为SEO问题讨论的是类似问题,这种过滤页面就是想隐藏的内容种类之一。不过可惜,我目前想不出完美的解决方法。云晨守望提出两个方法,我觉得都无法完美解决。

  一是将不想收录的URL保持为动态URL,甚至故意越动态越好,以阻止被爬行和收录。但是,搜索引擎现在都能爬行、收录动态URL,而且技术上越来越不是问题。虽然参数多到一定程度确实不利于收录,但4、5个参数通常还可以收录。我们无法确认需要多少参数才能阻止收录,所以不能当作一个可靠的方法。而且这些URL接收内链,又没有什么排名能力,还是会浪费一定权重。

  第二个方法,robots禁止收录。同样,URL接收了内链也就接收了权重,robots文件禁止爬行这些URL,所以接收的权重不能传递出去(搜索引擎不爬行就不知道有什么导出链接),页面成为权重只进不出的黑洞。

  连向这些URL的链接配合nofollow也不完美,和robots禁止类似,nofollow在Google的效果是这些URL没有接收权重,权重却也没有被分配到其它链接上,所以权重同样浪费了。百度据称支持nofollow,但权重怎么处理未知。

  将这些URL链接放在Flash、JS里也没有用,搜索引擎已经可以爬行Flash、JS里的链接,而且估计以后越来越擅长爬。很多SEO忽略了的一点是,JS中的链接不仅能被爬,也能传递权重,和正常连接一样。

  也可以将过滤条件链接做成AJAX形式,用户点击后不会访问一个新的URL,还是在原来URL上,URL后面加了#,不会被当成不同URL。和JS问题一样,搜索引擎正在积极尝试爬行、抓取AJAX里的内容,这个方法也不保险。

  还一个方法是在页面head部分加noindex+follow标签,意即本页面不要索引,但跟踪页面上的链接。这样可以解决复制内容问题,也解决了权重黑洞问题(权重是可以随着导出链接传到其它页面的),不能解决的是浪费蜘蛛爬行时间问题,这些页面还是要被蜘蛛爬行抓取的(然后才能看到页面html里的noindex+follow标签),对某些网站来说,过滤页面数量巨大,爬行了这些页面,蜘蛛就没足够时间爬有用页面了。

  再一个可以考虑的方法是隐藏页面(cloaking),也就是用程序检测访问者,是搜索引擎蜘蛛的话返回的页面拿掉这些过滤条件链接,是用户的话才返回正常的有过滤条件的页面。这是一个比较理想的解决方法,唯一的问题是,可能被当作作弊。搜索引擎常跟SEO讲的判断是否作弊的最高原则是:如果没有搜索引擎,你会不会这么做?或者说,某种方法是否只是为了搜索引擎而采用?显然,用cloaking隐藏不想被爬行的URL是为搜索引擎做的,不是为用户做的。虽然这种情况下的cloaking目的是美好的,没有恶意的,但风险是存在的,胆大的可试用。

  还一个方法是使用canonical标签,最大问题是百度是否支持未知,而且canonical标签是对搜索引擎的建议,不是指令,也就是说这个标签搜索引擎可能不遵守,等于没用。另外,canonical标签的本意是指定规范化网址,过滤条件页面是否适用有些存疑,毕竟,这些页面上的内容经常是不同的。

  目前比较好的方法之一是iframe+robots禁止。将过滤部分代码放进iframe,等于调用其它文件内容,对搜索引擎来说,这部分内容不属于当前页面,也即隐藏了内容。但不属于当前页面不等于不存在,搜索引擎是可以发现iframe中的内容和链接的,还是可能爬行这些URL,所以加robots禁止爬行。iframe中的内容还是会有一些权重流失,但因为iframe里的链接不是从当前页面分流权重,而只是从调用的那个文件分流,所以权重流失是比较少的。除了排版、浏览器兼容性之类的头疼问题,iframe方法的一个潜在问题是被认为作弊的风险。现在搜索引擎一般不认为iframe是作弊,很多广告就是放在iframe中,但隐藏一堆链接和隐藏广告有些微妙的区别。回到搜索引擎判断作弊的总原则上,很难说这不是专门为搜索引擎做的。记得Matt Cutts说过,Google以后可能改变处理iframe的方式,他们还是希望在同一个页面上看到普通用户能看到的所有内容。

  总之,对这个现实、严重的问题,我目前没有自己觉得完美的答案。当然,不能完美解决不是就不能活了,不同网站SEO重点不同,具体问题具体分析,采用上述方法中的一种或几种应该可以解决主要问题。

 

时间: 2016-12-08

减少无效URL的爬行和索引的相关文章

新手seo概念:爬行与索引的区别

爬行和索引是seo的两个专业术语,当很多新手接触seo的时候,他们会将这两个词混合使用,认为爬行就是索引.今天笔者就和大家仔细讲述一些爬行好索引之间的区别是什么? 1.爬行 当搜索引擎蜘蛛在站点中发生爬行时,站点中有一个并且只有唯一一个url被抓取,搜索引擎可以从其他网页的链接跟踪爬行到这个站点中,所以对爬行的认识就是搜索引擎按照链接对站点特定的url进行抓取. 可能上面的概念比较抽象,我们举例简单说明,比如说,在很多时候蜘蛛在爬行站点的时候,站点中的有些链接就不能被抓取,比如: (1)链接编码

网站的结构设计:网站的URL设计注意的八个问题

文章描述:设计网站的URL时应该注意的八个要点. 对于一个网站的结构来说,URL的设计也非常的重要,在URL设计时我们应该事先做好规划,应该从用户体验和搜索引擎蜘蛛体验出发,在总体上边应该做到URL清晰.友好.方便记忆,然后还要适当的考虑对于搜索引擎排名的影响,具体来说,URL设计时我们要从下边几点来着手: 1.URL越短越好 这样做主要是为了用户体验,其实对于搜索引擎来说,不超过1000个字母都没有问题,可是如果不考虑用户体验,确实真的用了非常长的URL的话,用户看起来就有些麻烦了,甚至会马上

五大技巧降低百度竞价无效点击

作为一个SEMER最关注的就是ROI(投资回报率),在推广的过程中相信大家都会这样的问题,百度竞价费用早早的就花完了导致竞价广告提前下线?点击率高但是转化率很低?跳出率很高停留时间很短?其实这都是无效点击的几种表现. 首先来说一下什么是无效点击,顾名思义,无效点击就是别人点击了你的竞价排名广告但是没有带来转化,这个转化可以是指注册,购买或者是到达某一个特点页面 等一些列行为.无效点击的原因有很多,在回答这个问题之前首先我们要了解,有哪些用户会点击我们的竞价排名广告,通过分析这些用户的心理我们可以

谷歌:通过“Googlebot 抓取方式”向谷歌提交URL

8月12日消息:近日,谷歌网站站长工具中的"Googlebot 抓取方式"功能提供了一种向Google提交全新的URL以及更新URL的收录方法.允许站长提交刚刚推出新网站,或者新增加 一些重要新页面,辅助谷歌快速索引网站. 谷歌称,当站长像Googlebot那样成功抓取了一个URL,那么,站长将会在谷歌站长工具中看到提交该URL到谷歌的索引这一选项.当站长以这样的方式提交URL后,通常在一天之 内,Googlebot就会抓取该URL.然后,谷歌会考虑是否将其列入谷歌的索引中.但请注意,

MySQL的B+树索引

本文讨论MySQL支持的索引类型及其优缺点.要注意的是:在MySQL中,索引是在存储引擎层而不是服务器 层实现,所以不同存储引擎的索引的工作方式并不一样,也不是所有的存储引擎都支持所有类型的索引. B+树是一种经典的数据结构,由平衡树和二叉查找树结合产生,它是为磁盘或其它直接存取辅助设备而设 计的一种平衡查找树,在B+树中,所有的记录节点都是按键值大小顺序存放在同一层的叶节点中,叶节点间 用指针相连,构成双向循环链表,非叶节点(根节点.枝节点)只存放键值,不存放实际数据.下面看一个2 层B+树的

PHP判断远程url是否有效的几种方法

  前提 需要判断远程URL是否有效,远程url包括远程图片,网页,视频等等元素 解决办法: 使用PHP解决 使用file_get_contents函数,不过优缺点如果url无法访问,会出现终止程序问题 使用curl返回,然后判断是否正确执行 使用get_headers函数,根据HTTP返回值查看是否有200 使用js解决: 使用原生的js函数ActiveXObject,仅支持ie内核的浏览器 使用jq扩展 本文主要介绍PHP解决办法中的第三种,这个方法很少用到,但是感觉又起来还不错, get_

解析如何消除网站内容重复度

在最近的几次百度更新事件中,众多网站都被百度整改,而当这些悲剧的站长聚在一起的时候,除了抱怨自己当初建站内容和外链上疏忽时,其实还有一个方面大家并没有注意.因为网站虽然大部分是原创,但有一个方面不注意的话同样是不会讨百度的喜欢,那就是网站内容重复度.网站内容即使是原创,但重复率过高一样会影响我们权重和排名的提升,那么什么情况下会加大网站重复度呢? 1 采集内容,这点大家很容易理解,把别人写过发表的东西再放到自己的网站上,骗得了访问者,可终究是骗不过蜘蛛. 2 淘宝客API站点在自动更新后会产生很

360搜索推出专门处理低质量和重复的内容ICO算法

湖北网盟消息:360搜索部门已经推出了ICO算法了,ICO全称:Index clear optimize,此算法主要不是处理低质量和重复内容的算法.继Google.百度之后,360也敢把自己的算法进行公布,相信对网站运营者来说获益不少. 我们知道百度以前更新算法让不少站长怨声载道,这直接导致网络上铺天盖地的批判信息.百度不得不公布部分算法,创建百度站长平台即时解答站长疑问.360也聪明了,在360搜索逐渐强大的时候公布每一次算法的改动. 湖北互联网网盟发现,如今的PC端流量在慢慢减少,不少互联网

百度站长平台沙龙:站长平台能给站长带来什么帮助?

站长网(admin5.com)消息:11月6日百度站长平台举办百度分享沙龙活动,在沙龙中,百度网页搜索高级经理胡蓉除了介绍了百度分享功能与百度排名之间的关系.还重点介绍了站长平台近期新推出的一些工具,以及这些工具能给站长带来哪些帮助. 近期,百度针对外链更新算法,重新强调了网站用户体验的重要性,开始重点打击一些影响用户体验的外链作弊行为.百度站长平台也针对外链优化推出了一系列新的站长工具,帮助站长提高用户体验,规范SEO行为.在沙龙中, 百度网页搜索高级经理胡蓉详细介绍了sitemap.死链删除

简析网站权重的隐形杀手 重复内容

大家都知道网站改版,同IP网站出现问题,或是自己的网站被攻击等都会让自己的网站降权,但还有一个因素同样会影响网站的权重,那就是网站的重复内容,网站中如果充斥较多的重复内容必然会影响到网站的权重以及排名,所以做好这方面的防备是做好SEO的重要举措. 什么情况会产生重复内容? 1 采集内容.这点大家都容易理解,很多站长为了省下写内容的时间,就去别的网站采集一些内容来填充自己的网站,这样做肯定会造成网站之间重复内容增加,而且对于这样做的后果大家是心知肚明,但还有很多站长存在侥幸心理,不过对此笔者建议大