焦大自媒体——互联网创业及qg111钱柜娱乐平台营销媒体!
qg111钱柜娱乐平台排名

张雪峰qg111钱柜娱乐平台:网站首页被k怎么查找原因

时间:2016-05-02 20:07 来源:互联网营销研究院 作者:豌豆荚张雪峰
相信不少草根站长都遇到过网站被K的问题,为了帮助大家更好的应对被K的情况,本次邀请了豌豆荚的qg111钱柜娱乐平台张雪峰跟大家简单说说网站被K的一些分析思路,包括从什么维度分析,常见有哪些问题,如何处理这些问题等。
网站首页被K
网站被K的问题,在近今年很少再遇到了,主要原因也有搜搜引擎对权重高、流量大的网站或垂直门户容忍度相对要更高一些,但难免新域名新网站会存在被K现象,分享一些前几年遇到较多的网站被K后的分析思路:
1、日志
从日志中,可以发现很多的问题,分别如下:
大量5xx错误,尤其500错误,说明服务器问题,导致无法提供稳定的抓取响应,需要运维介入解决;
大量4xx错误,尤其404错误最常见,需要干掉站内页面中存在的死链接,屏蔽掉SE爬虫发现404页面的入口;
大量301循环跳转,会导致SE爬虫陷入抓取死循环 (Su附注,最近明鹏分析了一个K12的站点,就遇到了大量301的情况,自己写的程序也落入了抓取陷阱,差点跑不出来,有兴趣的小伙伴们可以自己去分析分析);
抓取频率、抓取量降低,需要注意服务器响应时间和响应速度是否有下降作为切入点;
抓取停留时间变少,尤其相对历史水平大于30%,并同时存在抓取页面收录震荡,需要改善页面质量。
2、近期网站修改记录
qg111钱柜娱乐平台的每一个重要方案的上线迭代时间点,都需要进行记录,作为之后对问题的排查和线索发现的依据,同时建立方案到效果的量化关系,与K站相关的常见几种问题:
导致错误链接的修改
影响站内结构的调整
过度优化的内部链接调整
TDK频繁调整
JS等代码实现的桥页
低质量内容大量镜像、采集和重复
3、外部因素
还有一些外部因素,很容易会被忽略的,如:
被巨量刷某类关键词流量,有违禁词、动态页等多种,并同时伴有外链存在,通常禁止掉此类页面抓取即可 (Su附注: 这种问题通常存在于开放式的URL,类似于百度搜索的?wd={query}这样,1号店曾经遇到这样的情况,郑州的做黑站的同行,申请了我们网盟的track码,基于自己的一个大词库,构造了许多带搜索词和track码的搜索页,再利用自己的站群,推送这些页面被收录/获得排名/拿到流量,最后按照CPS来进行结算,实现借鸡下蛋的目的。由于对方词库有不少X擦边词/代办证/枪支/迷幻药之类,直接导致search域名被K。雪峰提到的禁掉抓取是一种解法,但是也放弃了这种页面的qg111钱柜娱乐平台价值。如果技术能力许可,能做充分的过滤,对于不合规的词页面title和内容不显示,也能处理。不过这种开放式的URL,由于URL中含有中文,会被编码,导致URL过长,也是个不好的地方。再改良,应该将搜索词ID化,一来可以控制词的质量,二来可以简化URL)
被外部链接攻击,通常新站会遭遇,尤其存在动态页;
中小站点被镜像;
被挂马、注入赌博、成人、违法等页面信息,要定期检查网站安全性;
遇到问题,能解决问题,自然是好,不过即便问题能解决,最后总归有损失。最好的办法还是防患于未然。雪峰提到的被K后的一些解决办法,恰恰也是平日里需要注意的。
围观: 次 | 责任编辑:焦大
回到顶部