V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wening
V2EX  ›  程序员

有大大知道delicious 自动实现tag功能,大致实现方式和背后的技术么?

  •  
  •   wening · 2012-04-07 22:49:50 +08:00 · 3712 次点击
    这是一个创建于 4594 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近痴迷与研究delicious,向自己做一个,向知道他背后的tag如果自动生成,如何自动提取
    有知道的大大麻烦说下,或者给个资料参考也行啊
    9 条回复    1970-01-01 08:00:00 +08:00
    sinreal
        1
    sinreal  
       2012-04-07 23:04:26 +08:00
    大概方法:提取首页关键字,根据关键字和训练数据中做匹配。具体实现,这个要问推荐系统,自然语言处理的同学说说,有没有现成的库?
    args
        2
    args  
       2012-04-07 23:08:34 +08:00
    我觉的就是把别人对这条链接的tag排序,然后输出最前面几个。
    chouj
        3
    chouj  
       2012-04-07 23:26:15 +08:00
    我在推特上弄了个机器人,自动输出Delicious的“rss”tag条目。发现最近机器人发出来好多“porn”和“adult”内容( http://delicious.com/tag/recent/rss ),于是我发信问Delicious。人回信曰:

    "Delicious has no control over the tags users assign to their links, so any time you browse the recent or popular list for all users' tags, there is no way for us to filter the content that are displayed. It seems some on Delicious are saving their adult links for their RSS feed, and are tagging them as such."

    也就是说,你搞一堆Delicious马甲收藏某光诚的页面,然后统一打上“锦涛”的tag,就能让“锦涛”这个Delicious tag输出一个光诚的页面。。。

    希望对你有帮助。
    caomu
        4
    caomu  
       2012-04-07 23:34:24 +08:00 via Android
    这个就是分众分类法啊,delicious之后就流行了,人肉的力量。
    然后推荐的时候应该就是推荐排名靠前的……不过这里面应该要有一些干预的算法,像PageRank那样,避免故意的捣乱。
    其实我觉得delicious对数据挖掘得不够充分应该还有更好用的书签服务的。。。
    wening
        5
    wening  
    OP
       2012-04-08 03:06:30 +08:00
    @chouj 刚刚被隔壁寝室兄弟拉过去搞dota了,汗啊,悔死我了,这么重要的内容才看到
    嗯,多谢啊
    有现成的内库么
    wening
        6
    wening  
    OP
       2012-04-08 03:06:44 +08:00
    @sinreal 同求库啊
    wening
        7
    wening  
    OP
       2012-04-08 03:08:20 +08:00
    @caomu 嗯,我也觉得啊,我再想google+1和delicious合起来的话,会是怎么一个情况啊
    比如,我对一个网页加一,同时就生出了tag收藏
    superisaac
        8
    superisaac  
       2012-04-08 10:01:55 +08:00
    TF.IDF算法啊
    chouj
        9
    chouj  
       2012-04-08 10:44:17 +08:00
    @wening 这个木有
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3607 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 10:38 · PVG 18:38 · LAX 02:38 · JFK 05:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.