V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  locoz  ›  全部回复第 310 页 / 共 324 页
回复总数  6470
1 ... 306  307  308  309  310  311  312  313  314  315 ... 324  
2018-10-23 12:04:18 +08:00
回复了 ft3312591 创建的主题 Python 如何做到邮件实时收取?
邮件服务商没有提供可以推送的协议的话,就只能轮询了
2018-10-23 12:03:29 +08:00
回复了 cjj2003 创建的主题 Python 怎么嗅探 l 视频 m3u8 地址
不需要批量下载的话,idm、迅雷,或者直接右键视频下载都可以
2018-10-23 11:49:00 +08:00
回复了 beryl 创建的主题 程序员 Java VS Py 爬虫
Java 写爬虫的缺点就是要写很多冗余的代码,同样的一个爬虫 Java 要写一百多行,Python 只用十行
优点就是碰到某些特殊情况会比 Python 方便一些,比如原本在服务器上跑的爬虫要改成一个 AndroidAPP,核心部分不用动太多就能移植过去了
不过实际上语言并不关键,不同的编程语言发出的请求都是一样的,最终还是要处理反爬,这个就是单纯的分析了,跟你用的语言无关
2018-10-23 11:43:36 +08:00
回复了 yellowmarlboro 创建的主题 Python 跪求某猫列表页抓取办法, 菜鸡我要自闭了.
然后就是阿里系的东西都需要有比较高质量的 IP 才能大量爬,账号不是必须的
2018-10-23 11:42:30 +08:00
回复了 yellowmarlboro 创建的主题 Python 跪求某猫列表页抓取办法, 菜鸡我要自闭了.
给你个提示,尝试一下 H5 版本的搜索接口
2018-10-20 13:27:08 +08:00
回复了 CharlieBrown 创建的主题 Python 爬虫工程师这个岗位是否对新手很不友好
@zidian9 #37
1.这家的东西我还从来没见过有哪个网站用了的,然后官网注册接口也挂掉了,没法测试。根据网上搜到的结果来看只是做了混淆,强度还没有阿里的那么大,并不是无法破解的

2.cloudflare 的那个防 DDoS 的 js 属于最简单级别,从看操作过程到写出破解 demo 连 5 分钟都不用,提出生成参数的那部分执行一下就没别的了,里面也没塞一些会大量占用 CPU 的代码,对成本几乎无影响。你可以了解一下知道创宇和阿里的同类型产品,其实也就只是多了一些混淆、加密、document 操作、浏览器指纹、鼠标轨迹之类的东西而已,把核心部分提出来并把需要拟人的部分生成好执行一遍就完事了

3.成本问题(时间成本和金钱成本)在很多时候其实并不是什么很大的问题,需要用到大量复杂人机验证的数据,数据本身的价值也会很高。但是在使用了那么多人机验证之后服务方还要考虑如何才能不影响普通用户的使用体验,所以国内的像百度、阿里、腾讯、网易等大企业对需要进行保护的部分通常都不会设置太复杂的人机验证,而是依靠各种方式收集证据并使用法律手段来解决掉通过那些部分赚钱的灰黑产
2018-10-19 19:17:33 +08:00
回复了 benzalus 创建的主题 程序员 惊了,公司突然停电
貌似是有改动后 1-3 秒就自动保存了
写框架的时候写单元测试了,但是爬虫本身没写,毕竟给解析规则和 需要跟着对方平台的修改而修改的加密函数 写单元测试没啥意义。效果嘛。。其实也没啥感觉,框架写完之后就没怎么改动过了。
2018-10-19 19:03:30 +08:00
回复了 Deville 创建的主题 程序员 我今晚想玩游戏。。。
内容引起不适,有老婆、老婆漂亮、有两室一厅的房子
有一次在弄完了一个很复杂的加密之后,我给最后写出来的加密函数起名为 fuck_******_sign,“*”是平台名
2018-10-19 18:09:15 +08:00
回复了 CharlieBrown 创建的主题 Python 爬虫工程师这个岗位是否对新手很不友好
爬虫工程师已经是一个对新手很友好的职业了,大部分公司的需求其实都不难,需求难搞的都是那种做的事情偏灰 /黑产的
研究方向的话可以往逆向和机器学习方面发展,毕竟难搞的东西都需要这两个。尽量减少使用 headless、appium 之类的东西,毕竟很浪费资源且爬的速度慢,对技术水平也不会有太大的提升。
2018-10-19 17:53:37 +08:00
回复了 CharlieBrown 创建的主题 Python 爬虫工程师这个岗位是否对新手很不友好
@zidian9 #28
1. 如果网站的 JS 有(黑盒) uglify,读懂他的 JS 非常困难,成本非常高
你说的应该是混淆 /加密后的代码吧,如果只是简单混淆的话,有很多方式能快速找到需要的东西;如果是加密的话,不管怎么加密最终还是会需要还原出原来的代码来执行的,只需要处理一下就可以把原始代码弄出来。弄得多了之后并不需要花费多少时间就能找到需要的部分

2. 存在解不了的 JS,比如 cloudflare 动态下发的 JS (动态下发一个 JS,每次都不一样),无法破解
动态下发的 JS 都会是按一定规律生成的,毕竟最终是为了执行后生成一个加密字符串放到 cookie 或请求里,只要找到规律就破掉了

3. 就算把 JS 取出来,用 V8,node,之类的引擎去运行,也只能解决构造请求的问题。各种验证码,人机验证。IP 限制,请求频率限制的防爬手段依然难以解决。
图片验证码要么机器学习要么接打码平台靠“人工智能”的力量打码
IP 限制、请求频率限制这种无非就是堆 IP、堆账号就能解决的问题
而人机验证就是多来一步 1、2 的步骤之后加上各种拟人轨迹 /设备指纹 /浏览器指纹的生成罢了,实在不行不还有搞灰产的那种打码接口卖么

其实主要看的还是值不值得砸钱堆 IP (高质量 IP 贵)、堆账号(需要手机号接验证码 /需要实名认证 /很容易封号 的贵)、打码(大量打码的情况下贵、人机验证搞不定的情况下用别人的打码接口贵)
2018-10-19 17:01:10 +08:00
回复了 bertsir 创建的主题 Android 这是 QQ 调皮了还是知乎调皮了
2018-10-19 16:58:28 +08:00
回复了 xssp 创建的主题 互联网 一种加密方式,没看懂是啥加密的,大佬们帮忙看看
这种没有特征的东西光看加密后的字符串没法看出到底是什么,直接把网站 /APP 名发出来吧
2018-10-19 12:24:36 +08:00
回复了 ladypxy 创建的主题 Python 初学 Python ,请问这段代码的含义。。return base64.b64decode(s+b'==')
这不就是把 s 变量加上两个等于号然后 base64decode 吗。。
2018-10-19 00:16:35 +08:00
回复了 519718366 创建的主题 程序员 入秋了,说说自己被电的那些事吧
被车门电出条件反射,现在用手直接碰到车门的时候会条件反射地把手往回缩一下。。所以我现在下车之后都不用手掌关车门了,就是因为之前有段时间天天被电🙃
2018-10-18 15:47:33 +08:00
回复了 pytth 创建的主题 广州 毕业 2 年,刚好存款 10 万,广州上班族,是不是很差?
自从注册了 V2ex,整个人都膨胀的不要不要的,连存款 10 万的贴都敢点进来看了
1 ... 306  307  308  309  310  311  312  313  314  315 ... 324  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   921 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 64ms · UTC 19:46 · PVG 03:46 · LAX 11:46 · JFK 14:46
Developed with CodeLauncher
♥ Do have faith in what you're doing.