Macos 上有没有好用的图形化采集工具/爬虫

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1717 天前的主题，其中的信息可能已经有所发展或是发生改变。

临时需要爬点东西，python 懂得很少很少，因为不怎么用到爬虫之类的

临时需要爬取点东西，直接就是保存当前页面源码为 html 格式到本地就行

我看火车头没有 mac 版本，后羿那玩意也得需要 py 还要钱，我的量比较大

大概百万以上

有么有大佬推荐下

爬虫

后羿

macOS

Python

27 条回复 • 2020-04-16 12:17:11 +08:00

airfling

2020-04-15 13:30:03 +08:00

idm 你找下

c0py7hat

2020-04-15 13:34:12 +08:00

@airfling 。。idm 也能爬取东西？

neoblackcap

2020-04-15 13:35:39 +08:00

要不报个价？免费大概满足不了你，毕竟你都上百万了

ostrichb

2020-04-15 13:36:50 +08:00 via Android

idm 不是 Windows only?

wolfan

2020-04-15 13:37:10 +08:00 via Android

pySpider 应该符合你的要求，就是到高版本 Python 支持不好。

c0py7hat

2020-04-15 14:11:30 +08:00

@wolfan 正在看

c0py7hat

2020-04-15 14:12:04 +08:00

@neoblackcap 我不懂这个价格，你说，我自己瞎写了个 py 脚本，但是没多线程啥的速度太慢了

siknet

2020-04-15 14:16:58 +08:00

虚拟机搭个 WIN7 ？

zdnyp

2020-04-15 14:17:38 +08:00

上百万的数据，不知道用不用代-理，用代-理还要买。八爪鱼和弓箭手都有网页版的，就是你写规则，他来跑采集，量小貌似免费。

huruwo

2020-04-15 14:28:41 +08:00

请个外包搞下自己折腾时间成本太高了

c0py7hat

2020-04-15 14:57:33 +08:00

@siknet 。。。吐血

c0py7hat

2020-04-15 14:58:10 +08:00

@zdnyp 那估计不行预计量 300w+

c0py7hat

2020-04-15 14:58:21 +08:00

@huruwo 那估计不便宜。。

yinzhili

2020-04-15 15:02:08 +08:00

你装个 Win10 不就完了吗

clemente0620

2020-04-15 15:08:55 +08:00

报个价把

c0py7hat

2020-04-15 15:09:56 +08:00

@clemente0620 我不懂这个，你说吧，加个多线程啥的速度变快那种

also24

2020-04-15 15:17:50 +08:00 via Android

wget -i url.txt 这样？

also24

2020-04-15 15:19:54 +08:00

诶，没注意到还要多线程？
那就 aria2c --max-concurrent-downloads=10 --input-file=download-list.txt 这样？

如果还要套代理的话，买个隧道代理，自动切换多省心~

c0py7hat

2020-04-15 15:22:12 +08:00

@also24 不是我是自己瞎写了个 py 爬虫脚本，就是 requests 请求网页然后获取 response 的 content 保存到本地为 x.html 现在问题是速度太慢了我不会弄那个什么多线程啥的

vhysug01

2020-04-15 15:26:59 +08:00

scrapy 入门一个下午就行，简单无脑。高级的你这种情况也不需要

also24

2020-04-15 15:29:32 +08:00

@c0py7hat #19
重点在于：
1 、是否需要配置大量的请求参数
2 、是否存在限制 IP 、链接时效性之类的

如果没有太多限制的话，可以自己只写拆 URL 出来的那部分，然后把需要下载的页面的 URL 灌入 aria2c 的 RPC API 来添加任务，多线程的部分就交给 aria2c 来处理。

如果确实涉及到比较多的流程需要敲代码来搞下载部分，那建议碰一下 aiohttp 这个库：
https://docs.aiohttp.org/en/stable/