1
airfling 2020-04-15 13:30:03 +08:00
idm 你找下
|
3
neoblackcap 2020-04-15 13:35:39 +08:00
要不报个价?免费大概满足不了你,毕竟你都上百万了
|
4
ostrichb 2020-04-15 13:36:50 +08:00 via Android
idm 不是 Windows only?
|
5
wolfan 2020-04-15 13:37:10 +08:00 via Android
pySpider 应该符合你的要求,就是到高版本 Python 支持不好。
|
7
c0py7hat OP @neoblackcap 我不懂这个价格,你说,我自己瞎写了个 py 脚本,但是没多线程啥的 速度太慢了
|
8
siknet 2020-04-15 14:16:58 +08:00
虚拟机搭个 WIN7 ?
|
9
zdnyp 2020-04-15 14:17:38 +08:00
上百万的数据,不知道用不用代-理,用代-理还要买。八爪鱼和弓箭手都有网页版的,就是你写规则,他来跑采集,量小貌似免费。
|
10
huruwo 2020-04-15 14:28:41 +08:00
请个外包搞下 自己折腾时间成本太高了
|
14
yinzhili 2020-04-15 15:02:08 +08:00
你装个 Win10 不就完了吗
|
15
clemente0620 2020-04-15 15:08:55 +08:00
报个价把
|
16
c0py7hat OP @clemente0620 我不懂这个,你说吧,加个多线程啥的 速度变快那种
|
17
also24 2020-04-15 15:17:50 +08:00 via Android
wget -i url.txt 这样?
|
18
also24 2020-04-15 15:19:54 +08:00
诶,没注意到还要多线程?
那就 aria2c --max-concurrent-downloads=10 --input-file=download-list.txt 这样? 如果还要套代理的话,买个隧道代理,自动切换多省心~ |
19
c0py7hat OP @also24 不是 我是自己瞎写了个 py 爬虫脚本,就是 requests 请求网页然后获取 response 的 content 保存到本地为 x.html 现在问题是速度太慢了 我不会弄那个什么多线程啥的
|
20
vhysug01 2020-04-15 15:26:59 +08:00
scrapy 入门一个下午就行,简单无脑。高级的你这种情况也不需要
|
21
also24 2020-04-15 15:29:32 +08:00
@c0py7hat #19
重点在于: 1 、是否需要配置大量的请求参数 2 、是否存在限制 IP 、链接时效性之类的 如果没有太多限制的话,可以自己只写拆 URL 出来的那部分,然后把需要下载的页面的 URL 灌入 aria2c 的 RPC API 来添加任务,多线程的部分就交给 aria2c 来处理。 如果确实涉及到比较多的流程需要敲代码来搞下载部分,那建议碰一下 aiohttp 这个库: https://docs.aiohttp.org/en/stable/ |
22
wangyzj 2020-04-15 15:34:23 +08:00
图形化?
虚机搞 win10 装个火车头 |
24
charlie21 2020-04-15 17:11:26 +08:00 via iPhone
爬虫无脑 wget
|
25
tikazyq 2020-04-15 17:14:04 +08:00
crawlab 的可配置爬虫了解一下?
|
26
gen900 2020-04-15 21:54:53 +08:00 via iPhone
curl 了解一下
|
27
Cmdhelp 2020-04-16 12:17:11 +08:00
python
|