1
wellsc 2020-04-25 21:09:20 +08:00 1
标题党
|
2
AngryMagikarp 2020-04-25 21:11:13 +08:00
如果抓的是公开数据,没有用什么漏洞,应该没问题
|
3
also24 2020-04-25 21:13:13 +08:00 1
我还蛮喜欢爬虫类的事儿的,与人斗其乐无穷~
|
4
iasuna 2020-04-25 21:17:04 +08:00 4
爬虫在绝大部分情况下不会被追责
但不代表是安全的 请考虑万一被抓的后果 你有犯罪记录意味着: 不会被任何正规企业聘用 在火车站,机场等公共场所受到额外的治安检查 在新的社区落户时,受到重点关注和审查 在身边出现盗窃 抢劫等各种案件时 受到重点审查 无法提供无犯罪记录 即无法移民 等等 请慎重考虑再做决定。。 |
5
Rxianbei 2020-04-25 22:33:07 +08:00 3
刑法明确规定:服刑人员出狱一切权利等同一般公民,享有就业不受歧视的权利。
(实际生活中不一定) |
6
linxl 2020-04-25 22:40:13 +08:00
那得看对方损失咋样了
|
7
oxogenesis 2020-04-25 22:41:09 +08:00
应该有一类数据,一旦发布就是对所有人公开的
已经有一类数据,一旦发布就是对所有人公开的 可以随便爬 |
9
CoderGeek 2020-04-25 23:22:19 +08:00 1
最近自己也想爬点需要的 - - 瑟瑟发抖
|
10
herozzm 2020-04-25 23:33:07 +08:00 via Android
富贵险中求
|
11
daquandiao2 2020-04-25 23:50:48 +08:00 2
@Rxianbei 实际生活一定不。 体制内的工作都要有无犯罪证明记录的吧,他们自己不都歧视了
|
12
Mobai497 2020-04-26 00:11:13 +08:00 2
|
13
zictos 2020-04-26 02:09:58 +08:00
之前爬取头条的内容被抓的人判的理由中有一条是:
为了破解头条的反爬技术,侯某等人伪造了 UA ( useragent 的缩写,意思就是“用户身份”)来绕过。 意思是伪造 UA 都不行,居然可以用这样的理由让你坐牢,反正随便用什么理由都行。破解验证码或者换 ip 就更危险了。爬虫如果不用点技术那还爬什么,现在各大网站或多或少都会有一点反爬虫的措施。 |
14
Symo 2020-04-26 02:14:18 +08:00
@oxogenesis 只是假设, 爬虫脚本并发太高把源站爬挂了, 也是有责任的.
|
15
taizhenhua1987 2020-04-26 08:41:00 +08:00
@zhybzc 头条的数据不是爬来的吗?难道现在已经不是了?
|
16
oxogenesis 2020-04-26 08:43:52 +08:00
@Symo
我说的是区块链数据,自身就有被传播的需求 个体产生的数据,只是放在中心网站, 如果个体将自己产生的数据,放在区块链上,就会产生大量我说的全公开数据 这是一个需要解放数据源头的问题 https://oxo-chat-server.com/bulletin/7EF130F346F803D365B534186343891E |
18
iyiluo 2020-04-26 09:06:30 +08:00 1
一般别爬的太过分,不去爬别人商业化的接口,谁管你啊
|
19
815979670 2020-04-26 09:20:15 +08:00
去爬 91 这种本身就违法的网站 是不是不会被追责?
|
20
drackzy 2020-04-26 09:27:43 +08:00
爬的越快 坐牢越快
|
21
mmixxia 2020-04-26 09:31:21 +08:00
风险很大
|
23
hevi 2020-04-26 09:42:18 +08:00
。。。我写爬虫都是爬盗版网站的,而且爬来也不商用
|
24
7654 2020-04-26 09:43:28 +08:00
数据需要帐号登录才能获取的,都可以算 XXX
|
26
binux 2020-04-26 09:57:42 +08:00 1
在美国做爬虫,我们都会和客户签免责协议,说是代客户爬,客户自行承担风险。
我是没怎么听说在美国,爬虫程序员有什么风险,EFF 还帮站台呢。 再说了具体实施也是印度人做的,怕啥。 不过我们也没有做中国市场,一来中国的反爬技术自成一体,还没有下定决心投入;二来我也怕刚下飞机就被扣了。 |
27
fank99 2020-04-26 10:01:02 +08:00
爬国外网站的公开信息路过。。
|
28
zdnyp 2020-04-26 10:28:47 +08:00
害,干会计做个内外帐要是想查你你也得进去,看清红线
|
29
Cmdhelp 2020-04-26 10:46:25 +08:00
兄弟,国内盗版泛滥都还没治理好呢,谁去管爬虫呢。。。。。。。。。。。。。。。除非你给人造成巨大损失,或者非法获取数据,不然还是没人管的
|
31
licoycn 2020-04-26 10:50:44 +08:00
应该是不要通过手段绕过别人的限制就可以,即目标站点的数据本身就是公开访问的,换种说话,就是你用爬虫来代替你的手工操作,如果你的频率过高,那就相当于 CC 攻击了
|
33
winnerczwx 2020-04-26 10:58:57 +08:00 via iPhone
@licoycn 比较在意改 ua 算不算绕过限制
|
35
anxiousPumpkin 2020-04-26 11:36:13 +08:00
我之前爬过一些电影网站的信息,速度太快了 ip 就会被暂时禁用。
我在想如果你把爬取频率降下来再加上这些信息本身就是公开的,应该也没人管你吧。 |
36
zictos 2020-04-26 14:08:38 +08:00
@taizhenhua1987 头条现在的数据应该大部分都是用户生成的吧。当然即便头条是爬的,你能让他被抓吗?只有大公司能叫人抓普通人,哪个普通人能叫人抓大公司的人的?特别是像这种法律界定不清的事情,大公司往往是比较安全的,大公司真的侵犯了别的权益,其他公司也往往最多只敢提起“民事诉讼”,怎么可能直接叫人抓人?
|
38
zictos 2020-04-26 14:13:52 +08:00
@iConnect 反正法院的判决理由中有这么一条,所以风险是存在的。严格按法律来说肯定不算,只是你如果得罪了某些大公司就难说了。大公司有时候往往能力通天,参考鸿茅药酒案和华为事件和 pandownload 事件
|
39
fancy111 2020-04-26 14:17:52 +08:00
这个真不好说,企查查靠爬虫都能起家,有的爬着爬着到监狱了。。。
|
40
tabris17 2020-04-26 14:23:02 +08:00 1
@zhybzc 伪造 UA 要坐牢的话,除了 Firefox,所有浏览器作者都要坐牢了——Mozilla/5.0 (xxxxxx)
|
41
abcbuzhiming 2020-04-26 14:27:01 +08:00
@zhybzc 你弄错了核心,核心是别人允许你爬了吗?没允许你爬,你用任何方法爬都是错的。
|
42
zictos 2020-04-26 14:30:11 +08:00
@abcbuzhiming 那很多大公司不也爬吗?天眼查爬取数据公开贩卖
|
43
zictos 2020-04-26 14:30:57 +08:00
@abcbuzhiming 凭什么普通人就要被抓?
|
44
zictos 2020-04-26 14:32:27 +08:00
@abcbuzhiming 之前还有人在网上代买火车票被判刑,跟携程的模式差不多,凭什么携程就没事。
|
46
kakeiri 2020-04-26 14:43:34 +08:00
钱到位,也值得
|
47
evilic 2020-04-26 15:06:36 +08:00
我的不知道算不算是爬……
我就写了两个 py 脚本:一个脚本模拟键盘,随机间隔时间向浏览器发送 alt-d, ctrl-v, enter ;另外一个是 mitm 的脚本,把指定网址返回的数据直接加时间扔到 mongdb 里…… |
48
evilic 2020-04-26 15:09:10 +08:00
我还有另外一个操作,就是写了一个 chrome 插件,把网页里面的数据直接传到我自己服务器的接口上。
接口也是直接加时间扔到 mongodb 里。 |
49
JCZ2MkKb5S8ZX9pq 2020-04-26 15:11:37 +08:00
不是用什么技术的问题,是本身业务逻辑是否合法的问题。
人家不给看的,有访问限制的,次数限制的,硬要大量获取,违法。 人家给看的,但无视版权限制,拿来当成自己的去公开发布,违法。 合法取得合法利用,应该就没太大问题。 |
52
rockyou12 2020-04-26 15:18:15 +08:00
其实就是有个美女穿得很少,但也不是你骚扰人家的理由。只要人家数据完全公开,我觉得都有风险
|
53
libook 2020-04-26 15:21:49 +08:00
对相关法律不了解,不过如果爬虫犯法,那么是不是就不会出现公共搜索引擎行业,比如百度、谷歌、必应。
个人看法是爬取公共信息没有问题,但不能违法其他方面的的法律规定:比如高并发致使源站满负载无法响应正常用户的请求、通过破解手段爬取源站明确禁止爬的数据、爬取的数据用于盗版等违法用途。 要是真的担心风险,可以尝试咨询真正的律师,或者签署相关免责协议(如乙方提供的代码和程序不得用于任何违法用途)。 |
54
newmlp 2020-04-26 15:26:29 +08:00
爬公共信息当然没有问题,另外就是不要产生严重后果导致对方报案
|
55
won 2020-04-26 15:31:40 +08:00
问题来了,爬军方服务器和直接入侵哪个性质更严重?
|
56
wolfan 2020-04-26 15:32:45 +08:00
法律学的好,虫子写的好。
|
57
abcbuzhiming 2020-04-26 16:03:20 +08:00
@zhybzc 没错啊,大公司爬啊,问题是大公司手上有的资源你有吗,人家背后的律师团队,你有吗?天眼查是商务部国家中小企业信息化推进项目的指定企业,人家拿信息是官方钦定,你有吗?
|
58
abcbuzhiming 2020-04-26 16:05:39 +08:00
@zhybzc 因为人类就是社群动物,全世界都是有组织的干翻没组织的,组织强的干翻组织弱,你一普通人欢迎去西方挑战一下大企业,看看人家大企业的律师团队如何花式吊打普通人。
凭什么普通人就要被抓?这个问法当真可笑 |
59
abcbuzhiming 2020-04-26 16:08:32 +08:00
@zhybzc 因为携程是大型企业,所以他如果违规,最多罚个款,退钱,下次不干了,就了了,不公平是吧?对,但是全世界的大企业大公司都有这特权,天然就能抵一部分罪,除此以外还有企业干很多事的税率都比普通人低。你以为为什么无论国内国外那些真正有想法的人都削尖脑袋去办企业开公司?光是为了赚钱吗?
|
60
zjx1993 2020-04-26 16:10:36 +08:00
爬 pornhub 会有人管吗?谁有好用的 pornhub 爬虫
|
61
whasyt 2020-04-26 16:20:11 +08:00
基金、资产 的一些公开信息会违法吗,一天一次或者两次的频率
|
62
wudalang123 2020-04-26 16:36:05 +08:00
我发布一条信息,有意的可以联系我,我们公司有爬数据项目,跟上游公司有协议,不用担心风险,如果你还是担心,不留任何纸面的内容,只以技术咨询的名义就行,有意的 加我 v:507693411,注明来自 v2ex,详细内容和项目 v 里谈或者电话沟通
|
63
pkoukk 2020-04-26 16:40:54 +08:00
密码法了解一下,刚刚实行
如果你爬的是公开数据还好,但如果你通过逆向之类的手段,获取到了对面接口需要的 key 或者签名方法,来伪造请求的话,是妥妥违法的行为了 |
64
marcong95 2020-04-26 16:56:50 +08:00
@zhybzc #13 这个侯某的事情,之前有人爆过判决书写的 tt_spider 是头条内部程序,有人把内部程序拿出来了。法官不懂技术,看到什么伪造 UA 之类的以为是个很严重的东西就写判决书上了。
|
65
zictos 2020-04-26 17:05:01 +08:00
@marcong95 虽然伪造 UA 只是侯某的一方面,但今天法官能因为不懂技术而把伪造 UA 写到判决书中,认为这个行为很严重,那明天肯定也可以因为单独伪造 UA 让别人坐牢。另外好像不是拿出了内部程序吧,反正判决书看着挺无语的。
|
66
zictos 2020-04-26 17:12:18 +08:00
@abcbuzhiming “凭什么普通人就要被抓”这个问法为什么可笑?同样违法,大公司就没事,这正常吗?虽然是现状,难道普通人连说一下都不行了吗?
而且我之所以说那句话是为了反驳你前面说的,你前面说“不允许爬就用任何方法爬都是错的”,既然是错的,那大公司就也是错的。 我也不仅仅是抱怨,而是通过大公司来举例探讨一下普通人用爬虫到底违不违法,单纯拿“爬虫”这个行为来说又到底违不违法。虽然明知道现状是怎样的,那也只是为了讨论一下而已。这个帖子大家也是为了讨论,虽然知道无论如何爬虫都是有风险的,只是风险小而已。 |
67
zictos 2020-04-26 17:18:37 +08:00
@abcbuzhiming 你不要拿西方拿举例,西方爬虫违法吗?西方的大企业能把爬他们网站的普通人送进去吗?
|
68
zictos 2020-04-26 17:27:01 +08:00
@abcbuzhiming 大企业不是违规就只罚款就行,大企业也有刑事责任的。像爬虫假设以破坏计算机系统罪、侵入计算机系统罪、非法获取计算机系统定罪,由于大企业的体量大,他们的爬虫对别人造成的后果比普通人的爬虫大得多。
你是不知道西方国家的惩罚性赔偿吗?动不动就几个亿的罚款或者惩罚性赔偿。惩罚性赔偿都是赔给普通人的,有律师愿意给普通人打官司,因为这里面的利益非常大。比如老太麦当劳被咖啡烫伤都天价赔偿,如果换中国就是老太自己的责任了,还会有很多人说老太讹人。 |
69
zictos 2020-04-26 17:30:22 +08:00
@abcbuzhiming 如果西方国家的爬虫真的成 ca 边行为,那估计那些大企业都不会去做了。拿版权来说,国外就是非常重视版权的。
|
70
ajaxfunction 2020-04-26 17:40:26 +08:00 1
和百度报警抓用户有异曲同工之妙,
你有没有违法和原告是谁关系很大, 恐怕大家不清楚的是未婚小两口去酒店开房都是违法的,只是不追究而已 严格立法,选择性执法,都是手段和工具而已,敢问就是寻衅滋事罪 |
71
marcong95 2020-04-26 17:47:07 +08:00
@zhybzc #65 当时 v 站讨论这事情的帖子里面某个回复这么说的,判决书里面不写的话也无从考究。我当时想法也是跟你想得差不多。然后看到有人说是拿到了内部代码,何况这个侯某也是头条的前高管,所以我就姑且信着吧。。。毕竟这种事情事关审判流程、司法透明度、公信力之类的问题,也不是一时半刻能解决的。
不管是爬虫还是爬墙还是 251,事件的被告,在事件发酵到最后也并不是完全清白的。所以这又陷入了那种诸如事实正义、程序正义的事情上。作为旁观者的我,似乎也看不清事实的真相。 |
72
DoodleSit 2020-04-26 17:49:29 +08:00
能快速赚钱的方法都写在魔法书里。
|
73
winglight2016 2020-04-26 19:02:04 +08:00
@ajaxfunction 敢问就是寻衅滋事罪——看到这里我想起似乎今年又出了“筐”2.0 了,是个什么罪名来着?
|
74
crella 2020-04-26 19:24:55 +08:00 via Android
一个是爬取一大一小两个招聘网站上的招聘信息,每天 8 点抓去一次;一个是爬取某冷门社区的热帖列表。都没有什么问题吧?
连协程都没用,两个线程下载的。 |
75
TimeRain 2020-04-26 23:11:39 +08:00 via Android
天眼查那种公司后台背景很强,你个人爬虫很多时候小心点,最好是不要涉及这方面利益
|
76
fansangg 2020-04-26 23:24:48 +08:00
爬虫还是很有趣的,看你爬些啥,怎么爬,自己在爬什么数据难道自己心里没点数吗?
|
77
ChristopherWu 2020-04-26 23:34:22 +08:00
https://github.com/YongHaoWu/NeteaseCloudMusicFlac 吓得我想把这个项目 Archive 删掉了。诸位给点建议- = -
|
78
dengwen168 2020-04-27 08:58:55 +08:00
嗯 ,先将刑法学好。再搞爬虫。。
|
79
PbCopy111 2020-04-27 11:30:56 +08:00
海外注册公司,paypal 收款,爬吧。
|
80
MengiNo 2020-04-27 11:42:34 +08:00
看看朋友圈那么多 py 的广告,什么设计师用 py 爬取资源分分钟出几十张图。。。不如大力推广让他们先恰。。
|
81
wmhx 2020-04-27 12:27:00 +08:00
看人家想不想搞你了, 想搞你随便什么理由都够你喝一壶的.
我之前爬 jandan 的图片,2 年了斗智斗勇还挺好玩的,后来就直接把我的 IP 封了, 又换代理啊啥的, 感觉人家的耐心也是有限的, 早晚的事情, 于是乎就换了站, 不过不盈利 也挺无聊的.. |
82
denghp3 2020-04-27 15:22:44 +08:00
我有个 1024 的爬虫,要的私我
|
85
yousabuk 2022-02-25 18:31:53 +08:00 via iPhone
有钱有关系越爬越赚
没钱没关系那就是应了“爬虫写的好,坐牢坐到老” |