V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Rafaam
V2EX  ›  问与答

立志要当程序猿的人,不是应该学会减少重复性劳动么?

  •  
  •   Rafaam · 2016-05-08 16:15:30 +08:00 · 2796 次点击
    这是一个创建于 3126 天前的主题,其中的信息可能已经有所发展或是发生改变。

    楼主是一只长期潜水于 V2EX 的传媒学生,如果有说错的地方,欢迎大神们指出。

    昨天,我一个软件工程专业的同学拿了如上的一份 EXCEL 来找我,说项目老师让他根据 D 列的主题分别填写 B 、 C 、 E ,总共 1 万多行的数据要两天内完成。我那个同学苦恼不已,四处找熟人帮忙。楼主是个外行,想不到取巧的方法,只好答应帮他完成一部分。问题是,立志要当程序猿的人,难道不应该学会让电脑来做这些重复性劳动么(╯‵□′)╯︵┻━┻

    论坛的大大们有什么好办法吗?

    补充另一张 EXCEL :

    14 条回复    2016-05-08 23:50:46 +08:00
    just1
        1
    just1  
       2016-05-08 16:19:55 +08:00 via Android
    结巴分词可以尝试
    shiny
        2
    shiny  
       2016-05-08 16:25:10 +08:00
    考虑分词吧,有现成的轮子可以用
    pheyer
        3
    pheyer  
       2016-05-08 17:05:28 +08:00
    愿意花时间的话上面已经给出提示了
    省时间的话某宝上搜 python excel
    21grams
        4
    21grams  
       2016-05-08 17:13:04 +08:00 via Android
    两天不见得写的出来,学生更不可能
    scys
        5
    scys  
       2016-05-08 17:51:45 +08:00
    10k 的容量,这种分词人肉大概是 6 个小时左右 ~_~
    猜测老师在分配自己的外快中。
    mcone
        6
    mcone  
       2016-05-08 18:18:06 +08:00
    没基础的话 2 天还是人肉来吧,什么立志当程序猿什么的,别想那么多……

    这貌似是老师自己的私活平均分下来的吧,之前我校某老师出的翻译版的书,也是这么分给学生然后攒起来的。。。。。。
    Rafaam
        7
    Rafaam  
    OP
       2016-05-08 18:43:49 +08:00 via Android
    @just1
    @shiny
    @pheyer
    谢谢你们的指点
    Rafaam
        8
    Rafaam  
    OP
       2016-05-08 18:47:33 +08:00 via Android
    @21grams
    @scys
    @mcone

    我是学新闻的,只是不理解我那同学都大三了,为什么还在做这么笨的工作°Д°
    打破了我对程序猿的美好幻想……
    just1
        9
    just1  
       2016-05-08 18:51:36 +08:00 via Android
    @wanll93918 程序员有什么美好幻想。好吧(∩_∩)我高一
    Devin
        10
    Devin  
       2016-05-08 19:46:25 +08:00 via iPhone
    把各行都出现的字都去掉,应该可以解决一半问题,最后问题变成字符处理问题
    server
        11
    server  
       2016-05-08 19:51:50 +08:00
    减少别人的重复劳动,不是较少程序员的重复劳动
    billlee
        12
    billlee  
       2016-05-08 23:33:55 +08:00
    @just1 和 @Devin 已经把方法说出来了,就是分词 + IDF. 用 python 应该可以轻松搞定的。
    不过只有一万个样本的话,准确率可能不是很高,速度可能和手工做差不多,但是写代码总比填一万个空轻松啊。
    xiamx
        13
    xiamx  
       2016-05-08 23:47:27 +08:00
    手动填 1000 行, 80/20 Split ,分词, IDF , SVM
    yixiang
        14
    yixiang  
       2016-05-08 23:50:46 +08:00
    粗糙方法:网上搜索农产品名称,建个数组,根据字符串匹配出 BC ,手工做个几百行数据,做关键字数组,根据字符串匹配出 E 。

    显然这个方法关键字数组会不怎么准确,但如果是我就将就用这个了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3059 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 14:49 · PVG 22:49 · LAX 06:49 · JFK 09:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.