V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
august
V2EX  ›  分享创造

二千万条数据的一些分析

  •  
  •   august · 2013-11-01 01:17:44 +08:00 · 6236 次点击
    这是一个创建于 4038 天前的主题,其中的信息可能已经有所发展或是发生改变。
    首先感谢某酒店提供的数据。

    页面在这里:

    http://august.hk/2000w.html

    没事拿来练习一下 sql, 有些校准,有些忽略,大致上准确。

    欢迎提供更多统计意见。
    第 1 条附言  ·  2013-11-01 12:10:06 +08:00
    追加了星座統計,天秤躺槍
    34 条回复    1970-01-01 08:00:00 +08:00
    senghoo
        1
    senghoo  
       2013-11-01 01:26:35 +08:00 via iPad
    Goodjob
    liuhk388
        2
    liuhk388  
       2013-11-01 01:31:33 +08:00 via iPhone
    地区分布那张亮了
    问一下图是用什么做的?
    drush
        3
    drush  
       2013-11-01 01:40:43 +08:00 via iPad
    drush
        4
    drush  
       2013-11-01 01:42:10 +08:00 via iPad
    ...點錯,不是圖,用Google chart 做的
    liuxurong
        5
    liuxurong  
       2013-11-01 01:47:44 +08:00
    看不到 图??
    cctvsmg
        6
    cctvsmg  
       2013-11-01 03:51:56 +08:00
    yelite
        7
    yelite  
       2013-11-01 05:30:00 +08:00   ❤️ 1
    我做了个生日的统计发现9月和10月出生的特别多,有9.9%和9.5%, 相对来讲3月到6月出身就比较少,最低的好像是7.8%
    Mihuwa
        8
    Mihuwa  
       2013-11-01 08:13:50 +08:00 via iPhone
    很有意思的表
    DearMark
        9
    DearMark  
       2013-11-01 08:17:09 +08:00
    喜闻乐见系列
    august
        10
    august  
    OP
       2013-11-01 08:20:05 +08:00
    @cctvsmg 我没想到统计入住时间,另外我发现82年的人是最多的,但如果地址是“香港” 的,所有生日都好像是默认为“19821228”,不知你有没有去除。
    august
        11
    august  
    OP
       2013-11-01 08:21:41 +08:00
    @yelite 生日这个我觉得要跟身份证号码来校验而身份证又分15位同18位,而且有上面的情况出现,略复杂,不会用sql来做,所以没做过统计。
    ChiangDi
        12
    ChiangDi  
       2013-11-01 09:06:22 +08:00
    越年輕,男女差別越小;經濟越發達地區人越多;排名第一的居然是張偉
    kurtrossel
        13
    kurtrossel  
       2013-11-01 09:17:06 +08:00
    看女性年龄分布,三十如狼果然不是盖的
    yelite
        14
    yelite  
       2013-11-01 09:38:51 +08:00
    @august 我没有看birthday字段,只看非重复18位身份证的,然后从身份证里提取生日,数量大概有1800w吧。

    待我学一下数据展示的js,也像你这样做个网页出来
    detailyang
        15
    detailyang  
       2013-11-01 10:12:33 +08:00
    数据库地址多少。从网上下的解开来全错的 = =。也想练练手
    imganquan
        16
    imganquan  
       2013-11-01 10:16:22 +08:00
    贊,做得非常棒。
    felix021
        17
    felix021  
       2013-11-01 10:27:29 +08:00
    我前两天用它来跑压测了。。
    august
        18
    august  
    OP
       2013-11-01 10:36:04 +08:00
    @detailyang 就在百度網盤一搜一大把
    cctvsmg
        19
    cctvsmg  
       2013-11-01 11:04:58 +08:00
    @august 也只过滤了一下一些明显有错误的
    csx163
        20
    csx163  
       2013-11-01 13:48:50 +08:00
    @august
    @cctvsmg

    怎么做的啊,手写sql么,除了使用excel都很麻烦的样子
    august
        21
    august  
    OP
       2013-11-01 14:37:36 +08:00
    @csx163 用 sql 跑到數字再填上去畫出來
    romisanic
        22
    romisanic  
       2013-11-01 14:38:06 +08:00
    赞!做的很不错啊
    光数据量搞来玩玩也不错
    romisanic
        23
    romisanic  
       2013-11-01 14:38:45 +08:00
    呃。。。天蝎仅次于天枰了。。。
    aku
        24
    aku  
       2013-11-01 14:43:32 +08:00
    好像男的总数比女的多很多 -_-!
    yelite
        25
    yelite  
       2013-11-01 14:44:01 +08:00
    gmbsfd
        26
    gmbsfd  
       2013-11-01 14:57:48 +08:00
    男的好多....
    Cambean
        27
    Cambean  
       2013-11-01 15:07:16 +08:00
    图很好看!打开速度也很快,这个是预先生成好的吗?
    tontech
        28
    tontech  
       2013-11-01 17:17:01 +08:00
    双子座的好少啊。。。
    tonitech
        29
    tonitech  
       2013-11-01 17:31:20 +08:00
    我也下载了一个,但是这个数据太大了,根本打不开。。。该怎么分析呢?
    august
        30
    august  
    OP
       2013-11-01 17:43:45 +08:00   ❤️ 1
    @Cambean 是預先跑好數據的。

    @tonitech 我是下了 csv 版的導入 mysql 裏跑的
    ydeng
        31
    ydeng  
       2013-11-02 10:18:37 +08:00
    @cctvsmg what happened on 2012年4月9日?……
    asdftu
        32
    asdftu  
       2013-11-05 14:12:11 +08:00
    赞 @august , @cctvsmg , @yelite
    byteboy
        33
    byteboy  
       2014-02-15 00:00:22 +08:00
    @august 只找到MSSQL的版本,好麻烦,还要重新安装一个sqlserver。请问哪里有直接可以导入 mysql的下载啊?方便发个网盘链接到邮箱 [email protected] 吧,非常谢谢!
    august
        34
    august  
    OP
       2014-02-15 10:25:35 +08:00
    @byteboy 找個 csv 格式的可以導入 mysql
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3675 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 10:35 · PVG 18:35 · LAX 02:35 · JFK 05:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.