昨天闲的,上了百度搜索资源管理平台看了一下。手贱地点了一下抓取诊断,然后问题来了。返现抓取失败,有ssl认证的就显示http-1-1-040,运用了搜索大法找遍了全网没有一个有用的答复,还TM没吃好,也没睡好,足足整了两天,头昏脑涨的。
先说我找问题的流程,搜索了大半天的时间。找了一个曾经也出现过此问题的站长,加好友请教。在对方的指引下把https认证退场。然后在测试,现在不显示http-1-1-040了,取而代之的socket读写错误,于是又使用了搜索大法,搜了一天一夜。
期间做过的尝试有:
备份了网站数据,重装了环境。问题依旧。
取消了301,取消了宝塔的强制https,问题还是依旧。
另外一个同vps的网站,没有ssl测试没有问题。
取消ssl,用普通链接。再次测试,问题还是依旧。
确认自己没有防火墙,没有安全狗,还咨询了空间商。对方也表示没有什么策略做了拦截。
无解中……,继续搜索大法。又发现了一个百度站长论坛的朋友问过同样的问题,对方留了网址。于是找过去qq请教,对方看了他发的原贴后表示是百度问题,一般在开会的时候这样的事情就比较多。
好吧,我信了!不信又能怎么样呢?对于这个问题我已经用尽了所有的办法,所有的力气。也只能相信了。看了对方的回复后,我释然了。本来就没有流量,我还在这里瞎纠结。说到底还是自己的心态不行,既然赚不到钱就当成长记录了……
另外,我把这几天找到的解决方法列出来,大家可以参考下能否和自己遇到的问题对症,然后再尝试一下吧,我是没有力气了。
可能的解决方法:
安装了“安 全 狗”等防护软件,关了可能就好了。
还有朋友启用了宝塔面板的nginx防火墙,开启了防cc攻击,设置的不对。关闭或者更改一下设置就可能好了。
可能是 nginx将http强制转换成https的原因,导致http无法直接访问,而百度抓取的是http站点, 将强制跳转https,关了就好了。(经测试无效)
百度自己的问题,可以不用理会。
还有一个帖子和梦想之路同样的环境,同样的问题。不过他说是更改Nginx环境为Apache完美解决问题。梦想之路不想使用Apache,所以就没做测试。
不相信的朋友可以继续折腾下,希望大家解决了能来留言告知一下,跪谢。
好吧,就这样了。折腾了2天一夜,头昏脑胀。释然了以后,感觉好多了。
2020.11.16补充:
莫名其妙的,今天发现有百度蜘蛛抓取成功了。忍不住好奇心,再次上搜索资源平台测试了下,竟然能抓取成功了。有些事情就是这么神奇,莫名其妙的出现了问题,又莫名其妙的好了。
如果非要说我在这期间做了什么的话,就是清理了一下cdn的缓存,然后用提交插件提交了一下网址。