1
alect 2015-10-14 12:11:06 +08:00
开全局代理之后再开 goagent 去爬?
|
3
xfspace 2015-10-14 12:53:43 +08:00 via Android
马宝有卖
|
4
pango 2015-10-14 13:04:16 +08:00 4
tor ,你值得拥有。
我在 do 的 vps 上开 100 个 tor 实例,每小时重启 1/3 实例,于是就有了取之不尽用之不竭的 ip |
12
fchypzero 2015-10-14 16:33:57 +08:00
ADSL VPS ,断开就换 IP ,一个地区少说一万多 IP ,足够了吧
|
13
zscblowgod 2015-10-14 16:47:25 +08:00
hrvpn 这货感觉不错~
|
15
blueeon 2015-10-14 20:23:10 +08:00
好像我知道有个团队正在做一个这样子的产品,针对的场景和你的需求还挺像,简单来说,是一个单入口,多出口的正向代理服务,出口可以自动更换 IP ,去访问你的目标 URL ;但是是收费的,好像是准备按次或者流量来收费,不知道现在开发到什么阶段了。。。
|
16
pango 2015-10-14 20:48:33 +08:00 1
@kmahyyg 开 n 个 tor ,比如: tor --RunAsDaemon 1 --CookieAuthentication 0 --HashedControlPassword "" --ControlPort $your_random_port --PidFile tor$your_random_id.pid --SocksPort $your_random_socks_port --DataDirectory data/tor$your_random_id ,然后你就有了 n 个不同端口的本地代理啊,然后抓取程序随机选择一个就行了。
|
18
pango 2015-10-14 21:14:08 +08:00 1
刚刚去看了下 tor 的原理,“ Tor 的转发节点都是网络上的志愿者们使用自己的服务器和网络带宽建立起来的,如果通过 Tor 网络来进行巨额数据的传输,实在是非常的不厚道”。
我决定放弃使用 tor 抓取大量数据了,多谢 boter 提醒,也请大家仅用这个方法来测试用,不要用作生产环境。 在这里推荐另外一个方法: https://github.com/wenson/proxypool 这个可以抓取各大 proxy 站点公布的 proxy ,经过测试有效性后存入 redis ,可以同时提供多达几百个有效 proxy ,可以自己写个 cronjob 每隔一段时间更新 proxy 库,用作抓取应该够了。 |
19
Andy1999 2015-10-14 21:16:55 +08:00 via iPhone
伪造蜘蛛 UA 可行吗
|
20
kmahyyg 2015-10-14 23:21:24 +08:00
我只是想开一个程序临时用用,主要用 ss 。有详细的部署教程吗? for centos7/debian7 均可
|
21
ericFork 2015-10-15 02:28:57 +08:00
hidemyass 有个一次付费的服务 每天给你发一批验证后的代理
|
22
TaMud 2015-10-15 04:53:32 +08:00 2
https://proxy.peuland.com 上面有大量可用的代理
|
23
nashsu 2015-10-15 08:58:34 +08:00 1
使用 luminati 也可以,背后是基于 Hola 的,类似 tor ,但是是正规提供代理服务的,相当于 hola 的商业版本。
缺点是申请有点麻烦,价格有点贵。 优点是相对稳定、并且可以过滤选择国家。 |
24
mnhkahn 2015-10-15 10:16:37 +08:00 2
|
26
cppgohan 2015-10-15 16:51:43 +08:00
爬哪个网站啊? ip 被封多久? 用代理也不是一样被封?
|
29
TaMud 2015-10-15 18:56:41 +08:00
http://www.xicidaili.com/
假的太多,几乎全是重复的,去重后没几个,能用的几乎没有几个 |
30
pango 2015-10-16 09:12:31 +08:00 1
|
34
vwhenx 2016-04-11 16:13:58 +08:00
|
35
vwhenx 2016-04-19 15:18:11 +08:00
|
36
blackmao 2022-07-19 23:57:13 +08:00
推荐用这个代理 xflash.pro
|