V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  LeeReamond  ›  全部回复第 11 页 / 共 88 页
回复总数  1751
1 ... 7  8  9  10  11  12  13  14  15  16 ... 88  
278 天前
回复了 g1879 创建的主题 Python 安利一个自己的开源项目: DrissionPage
@g1879 你应该加入一个选项,比如起码在 autoaccept 的同时 raiseException ,让用户代码可以管理中断
278 天前
回复了 g1879 创建的主题 Python 安利一个自己的开源项目: DrissionPage
@g1879 上面说了半天了,你指的没有阻塞是设置了 autoaccept 或者 nextone 的情况,而无法实现对弹窗的发现后处理。
281 天前
回复了 g1879 创建的主题 Python 安利一个自己的开源项目: DrissionPage
@g1879 最近一周内安装的版本。你指的没有阻塞是设置了 autoaccept 或者 nextone 的情况下没有阻塞吧,普通的出现弹窗事件->处理弹窗事件的逻辑是阻塞的。

https://gist.github.com/RedmondLee/ec0c13215c97c9902cd8c12ecbfbca1c
283 天前
回复了 sdfw23xd 创建的主题 计算机 这个配置用来设计合理吗
别的都不说,CPU+主板 2000 多这个价位。。。
我依稀记得我前年装机时候是 Ryzen5500 卖 475 块,主板也卖 450 块左右。。。。
所以宁这个高了 2.5 倍的价格,有 2.5 倍的性能吗?还是说宁这个是高端产品溢价。。。好像不是很高端的样子
283 天前
回复了 g1879 创建的主题 Python 安利一个自己的开源项目: DrissionPage
@g1879 起码 selenium 是这样处理的。我试着把在跑的几个脚本往你这个迁移,主要问题就是 alert 。目前的几个典型场景需要解决方案:

1.网站没有严格反爬,但也不会让自动脚本太舒服,alert 行为不是很可控,会随机弹。
2.在没有严格流程控制的情况下不让弹窗阻塞脚本( selenium 的方案是在上级 catch 异常即可,所以我可以很粗糙地开发但仍然保持对流程的高度控制)。
3. 服务器对验证码的判断结果由 alert 返回。这个场景的问题是,验证码 cv 识别有成功率,handle 不能撤回只能依赖 timeout 和等待让代码健壮性变成依托。

以上这些场景都是 trycatch 非常合适的应用场景,你不知道流程会在脚本执行到哪步时触发异常行为,但是因为有异常直接 catch 所以整体流程依然可控。现在没有办法 catch 的原因是弹窗后整个被阻塞,即使尝试用 next_one 预埋 handler ,因为你是单线程同步脚本,又没有个回调,这该怎么控制。
283 天前
回复了 g1879 创建的主题 Python 安利一个自己的开源项目: DrissionPage
@g1879 虽然我不是做专业爬虫工作的,但你这个设计思路那不是往增加开发人员心智负担上使劲。。。因为业务的复杂度是无限的,网站为了给自动爬取增加不适会用各种办法,如果用异常上报的方式,开发人员只需要规定在某个时期内出现异常那么就重新开始流程这样。但是如果你要求把行为摸透,那只有两种可能,要不然就是网站行为太单纯,要不然就是极大增加开发人员心智负担,打上无数的状态控制。说到底最关键原因还是 alert 会阻塞用户代码,你没法用常规的流程控制手段去控制它。

再者我想知道 chromnium 实现精准控制状态,还要保证爬虫速度,这得多花多少经历来进行流程控制,另外还要假设对方网站不会频繁更新,否则你无法写一个大略的状态控制来增加鲁棒性。我很高兴你这个框架可以不用像 selenium 一样隔一段时间还要更换 chromedriver ,但是你现在提供的功能我代码迁移不过去
284 天前
回复了 g1879 创建的主题 Python 安利一个自己的开源项目: DrissionPage
@g1879 最主要是有阻塞的问题,因为网站弹窗不一定是在预期时候出现的,你这么搞不确定什么时候自己代码就阻塞住了,所以最合适的就是上报异常。如果按你说的在跳转页面前使用 next_one 预设下个页面会弹窗,但是用户无法确定网页运行到什么状态才会弹窗,这就导致虽然能捕获弹窗数据,但是用户代码里感知不到什么位置出现弹窗了。

另外还有个问题是,全局等待,像 selenium 有个隐式等待(就是页面所需所有资源加载完毕)的 api ,我看你的文档里只有一个 start_load 和一个 doc_loaded ,是不是都不太对
285 天前
回复了 g1879 创建的主题 Python 安利一个自己的开源项目: DrissionPage
@g1879 试用了一下还不错,尤其是不需要 chromedriver 这点非常好,但是现在有个痛点。

目前引擎的所有代码在 alert 弹出后都会阻塞,无法在用户层对于 alert 事件做任何处理,只能设置为自动确认才能让代码自动执行。

如果 alert 内部含有有效信息的话则完全无法获取。

是否可以参考 selenium 将 alert 设计成异常的形式,用户让可以对中断进行处理。
285 天前
回复了 zhangjiashu2023 创建的主题 职场话题 能否给 Java 方向毕业生一点建议
@zhangjiashu2023 因为他 TLDR
286 天前
回复了 LeeReamond 创建的主题 Python 奇技淫巧
@iorilu 如果感到快乐你就拍拍手
286 天前
回复了 LeeReamond 创建的主题 Python 奇技淫巧
@nagisaushio v 站 py 区发库的很多都认识,他写他的我写我的

@iorilu Path 字多麻烦,最麻烦的是 write_text 还要打 utf-8 ,我实在是不想再打 utf 横岗 8 这几个键了。

@yanyao233 我现在基本就是工具类上 pypi ,换环境云端携带,习惯性先 from import *
286 天前
回复了 seekseat 创建的主题 生活 彩礼的意义和归属
@Pichai 哪个位面的农耕时代,三体世界的农耕时代吗?虚构历史了属于是。古代分聘娶婚和有偿婚。三媒六聘为什么要三媒,因为双方都要找媒,意思是你来我往。有偿婚是用来取妾的,买断回来当物件赏玩,跟农耕有毛关系。
287 天前
回复了 Nekunezu 创建的主题 宽带症候群 最近广东有什么便宜的宽带
深圳的话现在是只有城中村才能开最低档,你住稍微好点地方都是没有最低套餐的。
我觉得你要做到 40 每月比较困难。
@mylovesaber ssd 半年不用直接全丢听说过很多,机械硬盘往往被认为断电能存 30 年,没听说过断电导致数据损伤的说法,哪来的?
@linxijun 考虑到跨国网络传输,能保证每秒稳定传输 5MB 物理数据已经相当不错,那么 30T 数据大约需要 30*1024*1024/5=6291456 秒,约等于 72.8 天。大约只要等三个月就能收全数据了,真棒。
考虑到传输需要的协议损失,恐怕时间还要再延长。
@BeautifulSoap 倒是不嫌难吃。

@kyro00000 菜叶子比较麻烦的是还得洗。。不像你买一包面包从冰箱拿出来就能啃。
287 天前
回复了 dearmymy 创建的主题 问与答 减肥有使用 美司格鲁肽 的朋友么
@foxkiller 有相关研究,不过印象里研究显示的比例恐怕没有他说的这么高。
287 天前
回复了 coinbase 创建的主题 分享发现 迄今为止最大的文字转语音模型
听了听,感觉常态下可能还略有不如微软朗读,感情朗读倒是远胜于目前见到的方案,比如起点做的那个啥也不是的小说朗读。。。arxiv 说模型最大不超过 1B ,输入了 10 万小时的语音数据,说是挺多感觉还是挺科研向的,token 总数估计也就 10M 这个数量级。。。
@PbCopy111 吃糠可能就是问题的答案,不过副作用可能比较麻烦,所以发展了这么多年,巨大的经济效益,没有什么把这方面能力提纯的植物?
1 ... 7  8  9  10  11  12  13  14  15  16 ... 88  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1171 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms · UTC 18:47 · PVG 02:47 · LAX 10:47 · JFK 13:47
Developed with CodeLauncher
♥ Do have faith in what you're doing.