V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  locoz  ›  全部回复第 196 页 / 共 325 页
回复总数  6486
1 ... 192  193  194  195  196  197  198  199  200  201 ... 325  
2020-08-02 17:08:49 +08:00
回复了 szzhiyang 创建的主题 程序员 如何在其他编程语言中用上 Go 的 defer 语句?
@itskingname #13 骚
抓包对比,分分钟就能看到问题所在
2020-08-02 11:31:41 +08:00
回复了 HertzHz 创建的主题 分享创造 在 traceroute 中使用 rDNS 画画
你好骚啊
2020-08-01 23:41:52 +08:00
回复了 stringtheory 创建的主题 问与答 支付宝健康码每日自动截图有没有好的方法
Android 吗?是的话可以用 tasker 实现,自动打开 app 的对应页面然后截图并发送到指定邮箱都行
2020-07-30 13:27:58 +08:00
回复了 JL1990 创建的主题 问与答 大 A 股自动打新是否有办法实现?
上家公司一个合作方的产品就有自动打新功能,还有个核心功能是用舆情分析做的 AI 炒股…不过不知道现在做得怎么样了,之前天天吹什么跑赢大盘之类的🤣
2020-07-29 23:47:07 +08:00
回复了 iwukong 创建的主题 Python 怎么用 Python 抓取上市公司的财务数据呢
首先,你自己怎么看到这些数据?
2020-07-29 23:43:10 +08:00
回复了 dennissky 创建的主题 问与答 来吧,展示。深夜学习的你在看什么书籍?
v2ex
2020-07-29 15:18:45 +08:00
回复了 phub2020 创建的主题 随想 对于疫情期间居家办公对未来的影响
都这么想,问题在于这不是你能决定的,而是老板和人事决定的。
2020-07-29 11:24:34 +08:00
回复了 byaiu 创建的主题 问与答 想买一个健身房大冒险玩,最优组合大家认为是什么?
如果你会玩 switch 上的其他游戏的话,那可以买。直接无脑买日版、港版 switch 就行。
没有电视没关系,有显示器吗?无非就是屏幕小一点而已,不影响的。
如果连显示器都没有的话也没有关系,有笔记本电脑吗?笔记本电脑+采集卡一样可以玩,有那种二三十块的采集卡,刚好能达到 switch 的显示输出水平。
八爪鱼,下一个
@azh7138m #147 你这忽略前半句直接看后半句...?
“人家文章开头就说了是在爬虫的数据处理链路上用,得多大量级的数据才会碰到百万、千万 QPS 还必须硬扛过去的情况?”
应用场景不同没有可比性啊。
2020-07-27 17:56:12 +08:00
回复了 futou 创建的主题 问与答 请教 5G 都来了, 4G 不限量卡还有保留的必要吗
如果你不常用的话就随意,但是如果用这个作为主要的上网卡的话,建议还是留着。4G 不限量套餐在 5G 环境下可以达到被限制的带宽,但延迟方面是和 5G 套餐一样的。
@encro #144 一般是双 ID,一个 ID 是对方平台的数据原始 ID 、一个 ID 是用来去重的 Hash,去重依赖第二个,第一个主要用于筛选和清洗。
稍微加点东西就失效不就体现出这个 ID 的价值了吗?至少你能知道对方什么时候加了东西啊。
@encro #142 去重跟 ID 实际上关系并不大,只是说可以用 ID 做去重而已;动态规划链接时效也并不依赖 ID 实现。
而且你忽略了一点,ID 并不是一定只能有一个,即使是用 ID 做去重也是可以有多个 ID 存在的...另外使用 ID 做去重通常也不会用域名或 URL 做,而是直接对数据内容做一个 Hash,这样去重才能真正起到作用,被吐脏数据之类的也能明显地看出来。
@yeziqing #137 是啊,就是个单点的东西,如果要避免单点故障就只能舍弃掉 ID 的严格顺序性或者生成性能,没办法的。
@encro #138 另外,你所说的“通过 bloom filter 和站点域名来规划”跟文中所说的全局唯一 ID 连半毛钱关系都没有...不管是使用场景还是效果都完全不同。
@luren123 #136
@encro #138
不要硬杠,文章开头就提到了“在爬虫场景中,这条数据在进入数据库之前会进行数据清洗、校验、矫正、分析等多个流程,这期间有一定概率发生重试或设为异常等操作,也就是说在进入数据库之前它就需要有一个 ID 来标识它”,已经对场景进行了说明。这种东西也不存在仅限于爬虫场景可以使用而已,所以在一开始就限定场景其实是一种特别蠢的做法,你并不知道别人的其他场景会不会有类似需求可以用到。

对于一个需要监控、有着多个规范化操作且需要保证严格顺序性的流程来说,为了有个唯一的 ID 用来事后追溯,除了单点的发号器以外你没得选,没得选的核心点在于严格顺序性。如果你写爬虫没有遇到这种场景,那只能说明你的系统庞大程度、爬虫逻辑的复杂程度还没有到需要依靠工具帮你解决问题的情况。
另外,这个薄雾算法对序号的混淆特性主要体现在 ID 需要对外展示的情况下,如果不需要对外展示,那就单纯一个序号就完事了,并不影响使用。

---

举个比较极端、全面的例子:
某平台的反爬虫和风控非常恶心人,签名参数的加密算法每次都会变动、代码的混淆方式也每次都会变动,并且对方对 IP ( IP 质量、请求频率等)和设备(设备与 IP 的关联性、设备真实性、请求频率等)也有进行检测,整个流程是关联起来的,缺一不可。
这种情况下你写一个爬虫就需要有反混淆、提取加密算法、IP 分配、设备分配、IP 设备帐号三者绑定等多个模块,而这些模块都是部分通用的,你不会把他们全集成在一个爬虫程序里,而是分别提供服务。
那么问题来了,假设某一天你发现有某些数据发生了异常,你怎么查问题?没有全局唯一 ID 的情况下,即使有接入监控也很难查问题,查到吐都不一定能查出来是什么情况导致的;而在有全局唯一 ID 且所有模块都接入了监控的情况下,只需要查这一个 ID 就可以得到整个流程中的所有信息,排查起来会方便很多。

不要杠什么“这种情况不需要高性能的发号器”,你没有遇到不代表没有;
也不要杠什么“不会有这么多操作结合的情况”,很多模块是通用的,平台方有没有这么复杂并不影响爬虫方的复杂度;
更不要杠什么“人家都做了这么多限制你还爬,抓的就是你”,你并不知道人家是不在乎风险还是已经获得了授权,这跟你也没关系。

说白了,架构设计本身就是充满着妥协的,不结合实际场景来看没有任何意义。Snowflake 、MongoDB 的 ObjectID 这类的算法说白了也就是个时间戳、机器 ID 、序号、随机数之类的东西拼接起来而已,一样很简单粗暴,但这并不影响人家能在特定的场景下起到良好的效果。
2020-07-26 23:08:10 +08:00
回复了 leihongjiang 创建的主题 程序员 想学习 Python 有推荐教程的吗。
如果是写爬虫,编程语言本身对你来说并不太重要,用到哪学到哪就好了,后面慢慢地自然就会理解含义。如果是有编程基础的话,那更加没必要特意学一下 Python,语法都大同小异。
2020-07-26 23:01:50 +08:00
回复了 ChristopherWu 创建的主题 程序员 Notion? Roam? OneNote?做笔记我用 Tiddlywiki
@locoz #38 然后 roam 的引用相关功能都是支持搜索的,也就是说在写的时候可以:按下反斜杠 -> 选择引用方式 -> 直接搜索对应的内容 -> 选中后回车确定。非常方便。
2020-07-26 22:58:44 +08:00
回复了 ChristopherWu 创建的主题 程序员 Notion? Roam? OneNote?做笔记我用 Tiddlywiki
@locoz #38 哦不对搞错了,直接((block_id))是包含进句子,{{[[embed]]: ((block_id))}}是单独一个引用块。
1 ... 192  193  194  195  196  197  198  199  200  201 ... 325  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1044 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 46ms · UTC 23:15 · PVG 07:15 · LAX 15:15 · JFK 18:15
Developed with CodeLauncher
♥ Do have faith in what you're doing.