V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  est  ›  全部回复第 325 页 / 共 619 页
回复总数  12363
1 ... 321  322  323  324  325  326  327  328  329  330 ... 619  
2016-02-28 10:27:39 +08:00
回复了 onice 创建的主题 数据库 Mysql 怎么去重啊?
新建表,然后把数据 insert ignore 过去
2016-02-27 19:07:12 +08:00
回复了 est 创建的主题 分享发现 当年神一样崇拜的 《超级解霸》 原来也是偷 GPL 的黑历史啊
@d7101120120 大哥。看我链接的原文了么?
2016-02-27 16:40:07 +08:00
回复了 est 创建的主题 分享发现 当年神一样崇拜的 《超级解霸》 原来也是偷 GPL 的黑历史啊
2016-02-27 14:50:21 +08:00
回复了 maguowei 创建的主题 分享创造 从拉勾上扒的互联网公司基本信息数据
人数

$ python -c "for l in __import__('csv').reader(open('1.csv')): print l[5]" | sort | uniq -c | sort -nr

32769 15-50 人
19616 50-150 人
14808 少于 15 人
10870 150-500 人
4640 500-2000 人
3633 2000 人以上

看来是小微企业为主。
2016-02-27 14:49:09 +08:00
回复了 maguowei 创建的主题 分享创造 从拉勾上扒的互联网公司基本信息数据
资金情况


~/lq_dev/gist/lagou-stats[master*]$ python -c "for l in __import__('csv').reader(open('1.csv')): print l[6]" | sort | uniq -c | sort -nr

33994 未融资
18825 不需要融资
15187 天使轮
8297 A 轮
5033 上市公司
2615 B 轮
1355 D 轮及以上
1031 C 轮
2016-02-27 14:47:31 +08:00
回复了 maguowei 创建的主题 分享创造 从拉勾上扒的互联网公司基本信息数据
行业分布

$ python -c "for l in __import__('csv').reader(open('1.csv')): print '\n'.join(x.strip() for x in l[4].split(','))" | sort | uniq -c | sort -nr


41923 移动互联网
19409 电子商务
9790 O2O
9185 金融
9123 企业服务
6912 其他
5085 数据服务
4845 教育
4781 文化娱乐
3876 硬件
3515 生活服务
3421 医疗健康
3277 广告营销
3228 游戏
2498 社交网络
1418 旅游
1165 信息安全
2016-02-27 14:45:58 +08:00
回复了 maguowei 创建的主题 分享创造 从拉勾上扒的互联网公司基本信息数据
粗略统计了一下:


$ python -c "for l in __import__('csv').reader(open('1.csv')): print l[3].decode('utf8', 'ignore')[:2].encode('utf8')" | sort | uniq -c | sort -nr

27568 北京
14449 上海
10772 深圳
6847 广州
5065 杭州
2986 成都
1770 武汉
1677 南京
1120 厦门
1068 西安
1022 长沙
971 苏州
828 郑州
805 重庆
763 天津
600 青岛


北上深广杭 你们赢了
2016-02-27 14:26:46 +08:00
回复了 maguowei 创建的主题 分享创造 从拉勾上扒的互联网公司基本信息数据
@maguowei 我之前提到过这个。的确太损了。

有意思。 11M 的 csv 收了。多谢。
2016-02-27 00:34:12 +08:00
回复了 zjxubinbin 创建的主题 云计算 阿里云真渣
@aliyunservice V2EX 第 160650 号会员,加入于 2016-02-26 11:41:45 +08:00 ,今日活跃度排名 2127

你们爬虫很叼啊。随时都可以召唤到。
2016-02-26 19:48:51 +08:00
回复了 godteemo 创建的主题 分享创造 写了一本 InfluxDB 简明手册 教程,给有需要的同学!
@zts1993
@godteemo

其实不可靠。出现过 1 次丢数据。

就用来打一些不太重要的事件标记吧。
2016-02-26 14:54:19 +08:00
回复了 ninjadq 创建的主题 Python 为什么开源的 Django 项目,都与官方推荐的代码组织方式不同?
@sudoz 理由嘛就是老项目不能直接复制过来做新项目。要改许久 settings.py
2016-02-26 14:21:42 +08:00
回复了 zjxubinbin 创建的主题 云计算 阿里云真渣
LZ 你去买一个 1CPU 1G 内存的机器编译 MySQL 会一样得出机器很渣的结论。
2016-02-26 14:21:04 +08:00
回复了 ninjadq 创建的主题 Python 为什么开源的 Django 项目,都与官方推荐的代码组织方式不同?
django 官方结构不适合流水线生产产品。我一般都是 startproject 一个名字叫 src 的项目。
2016-02-26 13:04:17 +08:00
回复了 tanteng 创建的主题 编程 “反转字符串”有什么真实的使用场景?
想了一下, py 是 ''.join(reversed('abdced'))
2016-02-26 09:38:47 +08:00
回复了 aljun 创建的主题 Python 提高爬虫性能,都有什么奇技淫巧呢( python 方面)
@onlyice keepalive 可以做连接池。
2016-02-25 21:33:33 +08:00
回复了 sox 创建的主题 分享发现 你多少天开源一个项目?
est creates a repo every 42.60 days.
est owns 64 repos.
2016-02-25 20:28:09 +08:00
回复了 aljun 创建的主题 Python 提高爬虫性能,都有什么奇技淫巧呢( python 方面)
1. 用 http/1.1
2. 自建 dns cache
3. 用 gzip (效果立竿见影)
2016-02-25 18:42:15 +08:00
回复了 crowds 创建的主题 南京 南京这个城市 除了房价 一切都好
成都这个城市,除了房价一切都不好。
发现了一个好帖啊大包间。
1 ... 321  322  323  324  325  326  327  328  329  330 ... 619  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4987 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 92ms · UTC 09:52 · PVG 17:52 · LAX 01:52 · JFK 04:52
Developed with CodeLauncher
♥ Do have faith in what you're doing.