V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  locoz  ›  全部回复第 45 页 / 共 324 页
回复总数  6473
1 ... 41  42  43  44  45  46  47  48  49  50 ... 324  
@ch2 #22 有一说一,我认识的一些爬虫领域高水平从业者转方向(安全、架构、AI 、搜索引擎、算法、法务、自己开公司)的,核心原因都跟法律风险没太大关系,更多的还是觉得腻了或是累了,又或者是找到了新的兴趣点的。

而且觉得腻了和累了的这两种情况的差异还挺大,觉得腻了的是需要处理的东西基本没什么攻防对抗,大部分都可以套路化通杀,在框架早就搭好的情况下分分钟就能解决新需求或应对新改动,平时闲得都研究别的去了;觉得累了的是需要处理的东西几乎全都是各种高强度攻防对抗的,时不时就得加班研究对方又改了什么。

会因为法律风险驱使换工作或转方向的,更多是公司就是直接卖数据、自己不怎么加工数据的情况,这种本来就极其容易被找上门。但凡是基于采集到的数据做了处理,再作为产品对内外提供正经服务的,都没多大问题。
@Features #15 不清楚,我一般不用浏览器渲染,直接调接口较多,用浏览器渲染的时候都是量不大偷懒的情况,用哪个无所谓。
@jmss #9 cef ( https://bitbucket.org/chromiumembedded/cef/src/master/)可以理解成是一个在 chromium 核心的浏览器引擎部分(指页面渲染引擎+一些基础功能)的基础上做了一层封装的框架,而 webkit 是苹果的浏览器引擎。

说白了就是直接拿浏览器的核心部分用,而不是运行一个完整的浏览器,以提高性能和资源利用率。
另外,chrome 扩展和 selenium 虽然都是作为控制浏览器的工具,但由于运行环境的不同,也会存在各自的优劣势场景,实际还是要根据情况使用。比如 chrome 扩展可以直接提供给非技术人员使用,简单粗暴,心智负担低,但如果涉及到写数据库之类的操作就麻烦些,而用 selenium 这种外部程序控制浏览器的方式就不会有这个问题。
scrapy 是通用场景下的完整解决方案,把基本的处理流程规范、数据输出、分布式部署、后续运维管理等问题都解决了。
selenium 不属于爬虫框架,用在爬虫上只是作为一个控制浏览器的工具,本质上解决的只是请求和提取数据的逻辑部分。
chrome 扩展实际与 selenium 是一样的,也只是作为一个控制浏览器的工具。

所以很显然,scrapy 和另外两个完全不是同样的东西,前者可以在通用场景下做到简单配置就实现一个完整项目,后两者则需要自己开发除请求和提取数据以外的其他部分。
2023-09-17 15:38:40 +08:00
回复了 Totoria 创建的主题 OpenWrt 目前支持 OpenWrt 兼容性最好的路由器是哪款?
@Puteulanus #7 这个确实挺好,该有的都有,一两千的价格跟同类的其他设备其实也差不多,甚至其他的有些大厂产品还不一定能刷 OpenWRT 。就是续航和充电感觉还能优化优化,看描述是 5G 版本只有 4-6 小时续航,低负载优化明显没做好,而且充电还只能 5V3A ,这两个一加起来直接导致使用场景没那么自由了。
2023-09-17 15:25:09 +08:00
回复了 a412501665 创建的主题 酷工作 爬虫工程师兼职 (远程岗位) 3K 到 5K
@tuomasi #19 爬虫跟后端开发的技术栈几乎完全不同,让一个后端开发干爬虫的活的效率可能还不如一个不懂技术的人用傻瓜式爬虫工具点几下来得高...一些复杂点的情况,后端开发由于相关知识缺失,也想不到更优解,要么效率极低要么压根解决不了问题。

而一个后端+爬虫开发水平都没问题,或者后端开发水平没问题且愿意花时间快速学习爬虫相关知识以满足需求的人,显然只加 5K 薪资是不太够的,不加薪资按纯后端开发招的就更别提了。而且加薪资只招一个人的话,还要考虑到工作量分配、其他同级别员工薪资水平的差异之类的问题,以及加薪资之后社保、公积金之类的其他人力成本问题,长远点还要考虑需求变化怎么处理的问题,全是麻烦事。

在需求没那么复杂,不是作为一个高级技术人员招的情况下,显然还是分两个招更简单省事。而且由于需求不复杂,可以远程办公且按兼职算,不需要加上办公场地、办公设备、社保、公积金、其他员工福利等各方面的成本,不仅省事还省钱。
2023-09-17 14:53:25 +08:00
回复了 a412501665 创建的主题 酷工作 爬虫工程师兼职 (远程岗位) 3K 到 5K
@sxiaojian #35 这种低难度需求的劳动力一直都很便宜,连傻瓜式爬虫工具都能替代,很多这种需求的公司专门招个人本质上只是为了省事而已。
2023-09-17 14:50:50 +08:00
回复了 a412501665 创建的主题 酷工作 爬虫工程师兼职 (远程岗位) 3K 到 5K
@mokevip #34 真奇怪,工作量自己沟通不就行了,这有什么好说的...沟通完觉得自己接受不了就不做,接受得了就做,每个人的接受度不同。而且实际业务需求也不一定是稳定的量,甚至时效性要求都可以根据需求变化,这些都是要具体沟通的,怎么可能在个主题下一两句话讲清楚。

而且为啥觉得一定就得是一个本职工作很忙的人接他这活?有的人就是自己线下开个店,线上接点单;又或者是有的人就不想出门上班,就在家完全靠接单和固定合同的远程办公赚钱;甚至可能有的人就是做外包服务中介的,接了他这活转手就丢给别人了,需求简单连沟通都不怎么需要沟通,几乎 0 成本赚个代沟通钱。世界之大无奇不有,你觉得有压力,别人可能觉得这钱跟白捡的一样,有什么不行的...
2023-09-17 14:33:03 +08:00
回复了 a412501665 创建的主题 酷工作 爬虫工程师兼职 (远程岗位) 3K 到 5K
@kingfalse #18 说难度前先看数据量,一个话题下的文章才多少的量...这么点量的情况下,没有对数据加密、没有做无限 debugger+反抓包之类操作的网站只配按 1 级难度算,傻瓜式爬虫工具都能解决。
2023-09-17 14:21:41 +08:00
回复了 Totoria 创建的主题 OpenWrt 目前支持 OpenWrt 兼容性最好的路由器是哪款?
OpenWRT 官网有支持设备列表,还按主要需求做了几个分类设备列表,在那上面直接按你的需求找就行了,都是已经被官方支持的,兼容性没问题。
2023-09-17 02:38:47 +08:00
回复了 hokman 创建的主题 程序员 lunaproxy.com 这家 ip 代理太坑了,按 10 倍计算流量的
@hokman #8 我之前写的一篇文章里有简单说过 IP 质量和来源的问题,你可以看看:
https://mp.weixin.qq.com/s/926AKX_EVQNmthBBTpWS4Q
2023-09-17 01:28:44 +08:00
回复了 a412501665 创建的主题 酷工作 爬虫工程师兼职 (远程岗位) 3K 到 5K
看描述一眼就知道大概率基本都是需要的量不怎么大、人工手动收集嫌麻烦的需求,且目标网站基本只需要写解析和拼请求信息,反爬措施也基本仅限于 IP 限制,少数会有点简单的、一搜索或 hook 就能找到位置的逆向。这种简单需求招个实习生都能做,只是效率不够高,远程 3-5K 找个熟练工很合理,本质上就是找了个人固定下来外包做点散活而已。

而且这种明显量不大的,只要不是使用上有问题,根本不存在什么刑不刑的事,正常的用户行为罢了。说白了,量不大的情况下,一群人人工复制粘贴一样能达到效果,反爬是个啥?爬虫在这种场景下起到的作用仅仅是提高一些效率而已,无法起到决定性的作用。见啥都搁那“刑”,咨询过做这块的法律行业人士了吗?

只能说非细分领域且未严格分割版块的社区就这点不好,容易出现一些不了解特定细分领域但指手划脚的评论,甚至有时候还会带起莫名其妙的节奏,发个细分领域的主题感觉累得很...
2023-09-16 15:08:45 +08:00
回复了 openliucongbx 创建的主题 OpenAI 问题来了,你是选择 poe 还是 chatgpt 官网开通 plus?
当然是 POE ,ChatGPT 不想赚这个钱就没必要凑上去了
2023-09-15 09:04:39 +08:00
回复了 vfx666 创建的主题 OpenAI 有人用 gpt 写代码的吗
token 数量上限决定了无法一次性写完,你得分模块让它写。
2023-09-15 09:01:46 +08:00
回复了 hokman 创建的主题 程序员 lunaproxy.com 这家 ip 代理太坑了,按 10 倍计算流量的
@irdeto #1 云服务厂商、机房的 IP 跟家宽 IP 不是一个级别的东西,要看具体需求的
@codeself #1 AI 都不一定看得懂屎山…太多屎的屎山还是得要人工描述指引,要不然写出来的还是会带屎
2023-09-14 21:22:50 +08:00
回复了 richangfan 创建的主题 生活 bilibili 还是比不上老牌视频网站优酷土豆
大概率是版权问题,B 站买版权基本都连着买完的,没买完应该就是买不了
1 ... 41  42  43  44  45  46  47  48  49  50 ... 324  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1071 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 50ms · UTC 19:13 · PVG 03:13 · LAX 11:13 · JFK 14:13
Developed with CodeLauncher
♥ Do have faith in what you're doing.