V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  SlipStupig  ›  全部回复第 40 页 / 共 90 页
回复总数  1786
1 ... 36  37  38  39  40  41  42  43  44  45 ... 90  
想泼一盆冷水了,觉得做这个十有八九会黄,重要的不是 app 而是房子的钥匙,这个就很难搞定,很有可能上面全是中介,目前能做的模式就是 链家 /58/bnb, 除非你能突破性的想出一个模式,让房东不用带着人家看房,出现纠纷后由第三方机构进行调解
2017-05-07 06:39:16 +08:00
回复了 woshinide300yuan 创建的主题 NGINX 这种爬虫是不是无解?
@jarlyyn 那已经不是反爬虫了,你成了挂马网站了.....
2017-05-06 22:33:22 +08:00
回复了 woshinide300yuan 创建的主题 NGINX 这种爬虫是不是无解?
@jarlyyn 并没有什么用,人家根本不会下载和解析,如果非要造成困扰,是给一个死递归的函数让浏览器解析,让其爆栈
直接装个 Docker 就解决了,现在 docker 也支持 Windows
2017-05-06 21:15:16 +08:00
回复了 woshinide300yuan 创建的主题 NGINX 这种爬虫是不是无解?
@aabbccli 链接可以动态拼接的,每次请求会产生一个 sessionID 对应一个密钥( session 是有过期时间的),这个密钥产生一个加密链接这个会去请求一个数据库真实的地址,响应的结果的正文放到 DOM 里面随机插入放入不规则的 DIV 里面,你抓包每次地址都不一样,抓包作用有限,逼着你去分析恶心的 JS,如果非要较真的话,我去非洲找 1000 个老黑手动采集,你一点办法没有
2017-05-06 15:27:13 +08:00
回复了 woshinide300yuan 创建的主题 NGINX 这种爬虫是不是无解?
@woshinide300yuan 爬虫对抗我觉得可以尽量让对方察觉的不要那么明显而达到目的

1.做一个 Qos 去限速,不建议封 ip 而是给一堆假数据给对方,而我方可以减少内容被盗并且减少数据库压力, 这样采集的人会过一段时间发现自己采集的内容是假的,会花很长时间调试从而增加对方的痛苦值
2.页面 cookie 跟踪,处了首页以外,每次访问其它页面都需要上报上一次的 cookie 里面的 key,否则不让访问(如果这样会导致百度这些也无法爬行,下面会将)
3.前端页面使用 JS 渲染,对百度和 Google 这些爬虫给一个特定的页面,但是要校验 ip,如果 UA 和 ip 不符合的给予半真半假的数据(可以是 2:8 的比例, 也可以是 1:9 )
4.JS 页面混淆压缩,使用多层嵌套,使用随机的函数名和变量
5.对特定浏览器使用浏览器特性检测,比如用 canvas 检测浏览器指纹,还有 IP 的鼠标点击事件或滚轮事件,如果在规定时间内一次都没有,必定是爬虫

先说这么多方法,如果这些都还能过,可以尝试招安对方 +_+
2017-05-04 23:15:36 +08:00
回复了 kk941kk 创建的主题 职场话题 你们写日报吗?
月报用 git+sphinx 自动生成就行了其它
2017-05-04 23:13:32 +08:00
回复了 chlo0823 创建的主题 程序员 有没有码农,也看好共享经济领域的机会?
还以为要做共享码农扫一扫就可以编码按小时收费
2017-04-29 12:27:14 +08:00
回复了 fin07 创建的主题 酷工作 [武汉]脚爬客|我们需要 PHP 开发工程师
@fin07 就算是变形金刚也不能变成任意形状啊! 你们是要找 T-1000 吧
2017-04-29 11:57:35 +08:00
回复了 ufo22940268 创建的主题 酷工作 [杭州] Fireball Team | 寻找后端开发工程师加入
这个海报是专门适配 V2EX 的 吧,第一次看了这么舒服的海报,感觉自己进错网站了....话说贵公司的妹子都未婚么?
2017-04-29 09:33:01 +08:00
回复了 yuyongji1987 创建的主题 程序员 如何安全文件分发?一起讨论一下
2017-04-29 08:12:34 +08:00
回复了 yuyongji1987 创建的主题 程序员 如何安全文件分发?一起讨论一下
这种东西有相关的解决方案:“文件透明加密“
一旦创建就被加密了,没有秘钥服务每次打开指定文件的时候先解密,文件你就算传到网盘上也没用,秘钥是统一管理的,就算硬盘被偷了也依然解不了。
但是这种有几个缺陷:
1.秘钥服务器秘钥服务器被攻陷,后就无法保证文件安全
2.员工之间无法相互传文件
3.如果把内容做成二维码一张一张然后扫走,你可以禁止带手机进工作区,但是你无法阻止人用手画二维码(我们真的遇到过用手画二维码的)
2017-04-26 20:32:40 +08:00
回复了 azzwacb9001 创建的主题 程序员 你在毕业工作后,用到了哪些上学时学到的理论知识?
感觉数学以前都白学了,初高中数学知识可以解决大量实际问题,三角函数 /古典概率 /基础统计学 /拉格朗日中值定理 /高斯系列太多太多了,感觉以前学数学和化学完全不知道有啥用,现在发现原来有这么大作用,只能中国教学实在太没意思了
2G 内存+2Core 每天抓取上千万的电商数据.....
2017-04-24 07:19:58 +08:00
回复了 SlipStupig 创建的主题 程序员 不同区域 docker 部署的最佳方案是什么?
@notes 有大型计算项目....
2017-04-24 00:41:41 +08:00
回复了 SlipStupig 创建的主题 程序员 不同区域 docker 部署的最佳方案是什么?
@jhaohai 机器有点多哦,差不多有 1000 多台,难道我要一台一台执行命令?
2017-04-24 00:26:00 +08:00
回复了 SlipStupig 创建的主题 硬件 求三万以内笔记本推荐
@lsmgeb89 买了个台式机和 surface pro 4
2017-03-22 14:51:59 +08:00
回复了 SlipStupig 创建的主题 Python Python doctest 结果死活写不到文件里面去
@jason0916 我关键是想把结果输出到代码里面,方便输出文档
2017-03-22 11:26:16 +08:00
回复了 SlipStupig 创建的主题 Python Python doctest 结果死活写不到文件里面去
1 ... 36  37  38  39  40  41  42  43  44  45 ... 90  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1082 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 39ms · UTC 22:59 · PVG 06:59 · LAX 14:59 · JFK 17:59
Developed with CodeLauncher
♥ Do have faith in what you're doing.