V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wudikua
V2EX  ›  程序员

假如有5000篇健康类的文章标题。给定任意一个文章标题,可以判断他属不属于健康类的么。

  •  
  •   wudikua · 2013-11-01 09:55:40 +08:00 · 3265 次点击
    这是一个创建于 4040 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我看了下贝叶斯分类器和ID3感觉都解决不了。求内行指引下方向。
    12 条回复    1970-01-01 08:00:00 +08:00
    chlx
        1
    chlx  
       2013-11-01 10:02:03 +08:00
    可行但是准确率达不到100%.分类器不是关键,这种短文本的分类任务中,特征更重要。
    wizardoz
        2
    wizardoz  
       2013-11-01 11:28:09 +08:00
    这个是数学建模题吧,这种题不可能100%准确的。考量标准是你的模型分类的正确率。
    brikhoff
        3
    brikhoff  
       2013-11-01 14:37:47 +08:00
    500块我给你分,我人工分^_^
    zzNucker
        4
    zzNucker  
       2013-11-01 14:57:13 +08:00
    标题么? 那用统计方法是有点难
    solos
        5
    solos  
       2013-11-01 15:39:31 +08:00
    试下余弦定理计算相似性
    wudikua
        6
    wudikua  
    OP
       2013-11-01 16:51:20 +08:00
    @solos 不行啊,那个是两个东西比相似,这个不适用。
    miaoever
        7
    miaoever  
       2013-11-01 16:55:12 +08:00
    一般用贝叶斯分类起吧。不过,标题一般比较短,能够提取的特征不多,再加上只有 500 条已知类别的,估计效果不会太好。
    wudikua
        8
    wudikua  
    OP
       2013-11-01 17:05:26 +08:00
    @miaoever 贝叶斯分类器的话 首先好像你需要有一个是健康类文章的集合和不是健康类文章的集合才行吧。
    chlx
        9
    chlx  
       2013-11-01 17:29:21 +08:00
    @wudikua 是,要手工标注新闻作为训练集
    solos
        10
    solos  
       2013-11-01 18:14:07 +08:00
    efi
        11
    efi  
       2013-11-02 06:27:55 +08:00
    只有正样本,没有负样本,不可能做分类。可以做回归分析,比相似性,设阈值取类,正确率无保证。
    holy_sin
        12
    holy_sin  
       2013-11-04 09:29:55 +08:00
    svm ?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   992 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 20:02 · PVG 04:02 · LAX 12:02 · JFK 15:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.