V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  locoz  ›  全部回复第 301 页 / 共 324 页
回复总数  6472
1 ... 297  298  299  300  301  302  303  304  305  306 ... 324  
2019-01-29 10:37:59 +08:00
回复了 keyakizaka46 创建的主题 Python 请各位大佬,如何成为一个合格的爬虫工程师?
@locoz #13 https://i.imgur.com/v5Mqqcy.png 补上第二种代码的图
2019-01-29 10:37:29 +08:00
回复了 keyakizaka46 创建的主题 Python 请各位大佬,如何成为一个合格的爬虫工程师?
爬虫是需要啥东西都了解一下的,不是单单学点前端知识就能解决问题,如果单纯的是为了破解的话应该学的是逆向知识,举两个常见的例子吧:
1、轻度混淆、没有用 eval 什么的加密的 JS 代码
https://i.imgur.com/RGdMrsY.png
这种级别的代码根本不需要什么前端知识,会用浏览器开发者工具调试的人随便就能找出需要的东西是在哪生成的,别人调用的什么库直接上 google 查就好了,一些关键词( md5、sha256、aes...)也很容易辨认,一眼就能看出是干嘛的,再打个断点就知道具体参数是什么了,所以跟前端知识没啥关系。
2、高度混淆 /加密+做了各种反调试检测的 JS 代码
https://i.imgur.com/undefined.png
这种代码你让做前端开发的人来看都看不懂,对于这种 JS 代码来说,普通的前端知识根本不重要,需要的是用一些更底层的东西来恢复出这一坨屎一样的代码它原来的样子,而且一些反调试的操作根本不会是正常的前端开发会用上的,所以跟前端知识依然没啥关系。

然后一些其他领域的东西也能作为你的工具,像你爬淘宝的话如果搞不定属于上面提到的第二种 JS 代码的 ua 参数生成,你还可以使用测试领域的自动化测试来做,如果觉得 PC 上的自动化测试对于当前需求的性价比不高,想要速度更快一些、资源占用更少一些、更稳定一些的,你还能在自动化测试的基础上加上安全领域的中间人攻击甚至更黑科技一点的操作,所以方法的多样性非常重要。(当然我遇到过的绝大多数只会用自动化测试工具爬的人水平也不咋样,逆向还是得会的)
2019-01-28 09:13:46 +08:00
回复了 KasuganoSoras 创建的主题 推广 租了一个新机柜,现在开始出租 BGP 独立服务器啦
有点贵。。我选择套路云+自家服务器
现在的 B 站是打开 app 满屏营销号、抖音快手类小视频聚合。“ B 站两大区”之一的鬼畜区也混进了一群拿别人写好的拼接软件做视频然后花钱刷榜的。舞蹈区刷榜也明显挺严重的,封面一个卖肉图,淘宝买个刷收藏的分分钟就上榜了,数据与正常的相差极大。
然后直播间现在的人气值倍率似乎也改成与其他平台类似的了,几个人显示几百,逐渐同质化。
除了番剧、播放前无广告以及一些曾经看的 up 主还在 B 站上传视频以外,我已经感受不到 B 站与其他国内视频网站的区别了🤣🤣🤣。
2019-01-24 23:01:42 +08:00
回复了 codelover2016 创建的主题 Python Python 有什么无脑 OCR 库能搞掂下面这种图片么?
这种简单的纯数字可以切片好直接对比像素点,比 OCR 的效率还高
2019-01-24 10:36:04 +08:00
回复了 9684xtpa 创建的主题 全球工单系统 腾讯,你能否再傲娇一点
支持维权
@mytsing520 #1 查了一下确实是外包给平安做的
2019-01-23 11:03:00 +08:00
回复了 Weny 创建的主题 分享创造 给前几天的 NSFW 数据集写了一个多线程下载支持
捞一下,至今未修复
2019-01-21 08:49:19 +08:00
回复了 SamsonWang 创建的主题 问与答 大家是如何处理电子垃圾的,如:旧充电头
貌似我家这种 5V0.5A 的头现在都不见了,起步都是 5V1A 的
都有,主要看个人习惯,但是用 pycharm 久了会自然而然的写出 pep8 规范的。
2019-01-21 08:45:17 +08:00
回复了 liyang19901009 创建的主题 汽车 现在买车合适吗?
手动。。?
@c794103684 #23 主板 1000+还好吧,当时也差不多这个价格
2019-01-20 23:17:50 +08:00
回复了 zhuzhibin 创建的主题 问与答 你们一般是用什么工具搭建自己的 API 文档?
@zhuzhibin #15 我不是,我没有,别瞎说啊.jpg 菜鸡一个,教不了
2019-01-20 23:15:24 +08:00
回复了 Ewig 创建的主题 Python 最近想爬天眼查 网站
只需要简单的信息就行可以直接爬工商局
目前用的泰安 s7050+双路 e5-2670+128G 内存,之前买的时候这一套下来 3000 多,现在估计炒的很高了
2019-01-20 20:29:56 +08:00
回复了 zzzzzzk 创建的主题 Android charles 抓其他应用的 https 请求 7.0 以后 有什么好方法吗?
之前写的,看看能不能帮上你。https://zhuanlan.zhihu.com/p/46433599
2019-01-20 18:34:27 +08:00
回复了 itskingname 创建的主题 分享创造 使用 Airtest 超快速开发 App 爬虫
@applehater #57 目前没看到用 USB 网卡的。。
1 ... 297  298  299  300  301  302  303  304  305  306 ... 324  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5345 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 80ms · UTC 09:29 · PVG 17:29 · LAX 01:29 · JFK 04:29
Developed with CodeLauncher
♥ Do have faith in what you're doing.