前段时间研究了下基于余弦相似性的 404 页面识别技术方案,这是当时记录的笔记与心得,有兴趣的可以看看:
https://thief.one/2018/04/12/1/
研究结果虽然提升了 404 页面识别的准确性,但感觉仍有不足,有兴趣的可以一起探讨探讨。
注明:由于完整代码涉及公司项目,就不全部放出来了。再了解了具体实现方案后,代码实现还是比较容易的。
这是博客里面最终写到的 404 页面测试 api:
https://api.nmask.cn/not_exist_page_calculation/?target_url=https://www.baidu.com/not_exist_page
1
amamiyasachi 2018-06-04 20:31:24 +08:00
https://api.nmask.cn/not_exist_page_calculation/?target_url=http://www.meowmere.com/abcd
拿自己的网站自定义 404 试了一下,很强=。= |
2
amamiyasachi 2018-06-04 20:42:07 +08:00
location ~ ^/this_is_nmask_test_404_page.* {
content_by_lua_block { ngx.print('1') } } 添加了这么一段,屏蔽了测试页面=。= |
3
codehz 2018-06-05 00:05:17 +08:00
话说有些部署在 github pages 上的单页应用,就提供了一个 404.html,然后内容全靠 js 跑,这种应该没法准确判断吧
|
4
nmask OP @amamiyasachi 哈哈,我可以设置个随机路径,就没法屏蔽啦。
|