V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  zictos  ›  全部回复第 146 页 / 共 147 页
回复总数  2935
1 ... 138  139  140  141  142  143  144  145  146  147  
2020-04-28 22:08:50 +08:00
回复了 Jessepinkman 创建的主题 Google Google 中文搜索质量越来越差了。
一些生活性的问题用谷歌很难搜出好的结果,前面经常出现一些乱七八糟的网页,反倒是百度的结果挺好的。谷歌搜技术方面、软件方面、影视方面的东西还是很不错的。
2020-04-26 17:30:22 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@abcbuzhiming 如果西方国家的爬虫真的成 ca 边行为,那估计那些大企业都不会去做了。拿版权来说,国外就是非常重视版权的。
2020-04-26 17:27:01 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@abcbuzhiming 大企业不是违规就只罚款就行,大企业也有刑事责任的。像爬虫假设以破坏计算机系统罪、侵入计算机系统罪、非法获取计算机系统定罪,由于大企业的体量大,他们的爬虫对别人造成的后果比普通人的爬虫大得多。
你是不知道西方国家的惩罚性赔偿吗?动不动就几个亿的罚款或者惩罚性赔偿。惩罚性赔偿都是赔给普通人的,有律师愿意给普通人打官司,因为这里面的利益非常大。比如老太麦当劳被咖啡烫伤都天价赔偿,如果换中国就是老太自己的责任了,还会有很多人说老太讹人。
2020-04-26 17:18:37 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@abcbuzhiming 你不要拿西方拿举例,西方爬虫违法吗?西方的大企业能把爬他们网站的普通人送进去吗?
2020-04-26 17:12:18 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@abcbuzhiming “凭什么普通人就要被抓”这个问法为什么可笑?同样违法,大公司就没事,这正常吗?虽然是现状,难道普通人连说一下都不行了吗?
而且我之所以说那句话是为了反驳你前面说的,你前面说“不允许爬就用任何方法爬都是错的”,既然是错的,那大公司就也是错的。
我也不仅仅是抱怨,而是通过大公司来举例探讨一下普通人用爬虫到底违不违法,单纯拿“爬虫”这个行为来说又到底违不违法。虽然明知道现状是怎样的,那也只是为了讨论一下而已。这个帖子大家也是为了讨论,虽然知道无论如何爬虫都是有风险的,只是风险小而已。
2020-04-26 17:05:01 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@marcong95 虽然伪造 UA 只是侯某的一方面,但今天法官能因为不懂技术而把伪造 UA 写到判决书中,认为这个行为很严重,那明天肯定也可以因为单独伪造 UA 让别人坐牢。另外好像不是拿出了内部程序吧,反正判决书看着挺无语的。
2020-04-26 14:32:27 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@abcbuzhiming 之前还有人在网上代买火车票被判刑,跟携程的模式差不多,凭什么携程就没事。
2020-04-26 14:30:57 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@abcbuzhiming 凭什么普通人就要被抓?
2020-04-26 14:30:11 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@abcbuzhiming 那很多大公司不也爬吗?天眼查爬取数据公开贩卖
2020-04-26 14:13:52 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@iConnect 反正法院的判决理由中有这么一条,所以风险是存在的。严格按法律来说肯定不算,只是你如果得罪了某些大公司就难说了。大公司有时候往往能力通天,参考鸿茅药酒案和华为事件和 pandownload 事件
2020-04-26 14:10:55 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@murmur 是的,各种各样的理由都有可能。人人自危,什么都不敢做
2020-04-26 14:08:38 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@taizhenhua1987 头条现在的数据应该大部分都是用户生成的吧。当然即便头条是爬的,你能让他被抓吗?只有大公司能叫人抓普通人,哪个普通人能叫人抓大公司的人的?特别是像这种法律界定不清的事情,大公司往往是比较安全的,大公司真的侵犯了别的权益,其他公司也往往最多只敢提起“民事诉讼”,怎么可能直接叫人抓人?
2020-04-26 02:09:58 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
之前爬取头条的内容被抓的人判的理由中有一条是:
为了破解头条的反爬技术,侯某等人伪造了 UA ( useragent 的缩写,意思就是“用户身份”)来绕过。

意思是伪造 UA 都不行,居然可以用这样的理由让你坐牢,反正随便用什么理由都行。破解验证码或者换 ip 就更危险了。爬虫如果不用点技术那还爬什么,现在各大网站或多或少都会有一点反爬虫的措施。
@Higurashi 刚还是试了一下,发现有报错,具体错误提示可看这篇笔记:

http://note.youdao.com/noteshare?id=b7397b8746fe671545ea1fe327c89ba5
@Higurashi 我用不到,因为我自己本身没这需求。我也不清楚你的需求是什么,按你说的似乎只有自己写笔记的时候#号标得很规则才能有用。既然这样,那还不如手动标。

另外用太多标题作为层级的笔记并不好看,层级太多用项目符号或者缩进更好。你的代码经过我之前的测试发现好像只有#号很规则的情况下才有用,如果随机在某些行加入一些#号,最终标出来的序号是非常乱的。

我之前没事也有试着重新写了一下,我写的代码即便在#号随机标得很乱的情况下添加的序号也还算规则。只是不知道究竟该用什么算法,不知道是相同的#号数量用相同的层级还是用相对的方式增加或减少层级,相对的方式就是说发现#号比上一行多就增加一个层级,比上一行少就减少一个层级。

总之不管用什么方式都无法保证很规则,最终都还是可能标得很乱。我感觉这个程序实在没什么用。除非你能明确自己的需求,确保自己在笔记中的序号一定是规则的,一定是你预先考虑到的情况,不会出现其他特殊情况。

下面是我后来写的代码:
http://note.youdao.com/noteshare?id=3cd18b9191d748c0db3dabb6893da3d1
2020-04-22 18:01:39 +08:00
回复了 foreverfuck 创建的主题 程序员 写个爬虫爬取值得买的商品和文本会被安排进去吗?
@nellace 部分可能是手动发的吧?现在不止官方的人可以发,用户也可以发布优惠商品。反正他们不数据来源不单一,所以就比单一来源的爬虫更能为自己开脱
@Higurashi 刚又试了一下,好像也不是很容易出错。只是复制你上次的帖子中的例子会报错,其他内容很少报错:
TypeError: write() argument must be str, not None

另外如果第一行有 6 个#号,第二行只有 3 个#号。第一行是 1,第二行是 1.1 吗?
@Higurashi 试了感觉好像问题很多,很容易出错。不过这东西我也用不到。随便复制一段文本到文件中,然后随便在某些行的前面加一些#号,运行后肯定会报错。
完全可以做到不报错啊,但是你得说清楚几个#号算大标题,然后子项又怎么确定?就是我之前跟你说的那些。
2020-04-21 11:59:31 +08:00
回复了 waiaan 创建的主题 程序员 大家平时遇到新的功能需求一般是网上复制粘贴还是自己写?
熟悉了自然就自己写了。
网上粘贴的代码很多时候也要修改。
一般自己写不出,或者需要去网上查询并参考下别人的代码的时候,如果刚好有现成的代码并且不需要做过多的改动肯定是复制粘贴的。

总结一下就是:不依赖,但能省事还是尽量让自己轻松点。你修改别人代码的时候也是一个熟悉的过程,而且我会尽量去把别人的代码的每一行都读懂,而不是直接粘贴了就都不管了。
@Higurashi #号突然变少就从 1 变成 2 是吧?比如你刚举的例子中从 5 个#号变成 2 个#号,序号就从 1 变成 2 了。可是如果 1.3.2 后面还有 1.4 呢? 1.3.2 后面如果是 4 个#号就是 1.4 吗?
大标题中 1 是三个#号,怎么 2 又只有两个#号?

我不太懂 Markdown 的习惯,也不一定每个人都一样吧?序号也本身是手动标的,Markdown 不会默认生成。总之我依然无法完全搞清楚你的所有需求。

只要你能够把需求完全说明白,还是很好实现的。只是稍微有点麻烦,我就懒得再写了。我之前写的你稍微参考下吧,大致套路就是那样的。
1 ... 138  139  140  141  142  143  144  145  146  147  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1035 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 44ms · UTC 19:40 · PVG 03:40 · LAX 11:40 · JFK 14:40
Developed with CodeLauncher
♥ Do have faith in what you're doing.