@好东西传送门 出品, 过刊见 http://ml.memect.com
订阅:给 [email protected] 发封空信, 标题: 订阅机器学习日报
可点击加长版48条 http://memect.co/ml-list-2015-01-21
@52nlp
关键词:经验总结, 自然语言处理, 博客
用MeCab打造一套实用的中文分词系统: MeCab是一套优秀的日文分词和词性标注系统,基于CRF打造,有着诸多优点,代码基于C++实现,基本内嵌CRF++代码,性能优良,并通过SWIG提供多种语言调用接口, 可扩展性和通用性都非常不错。这篇博客尝试基于MeCab训练一套中文分词系统,欢迎观摩 [1]
[1] http://www.52nlp.cn/?p=6932
@36氪
关键词:Andrew Ng, 霍金, 饶毅, 新闻
生物学家饶毅:AI = Artificial Intelligence,暂时还是伪智能 | 前一阵子我们报导过 “科学界和企业界大佬联名公开信:警惕可能失控的人工智能”,不过对于AI,生物学家饶毅将其称为“伪智能“。来听听看他的见解吧: [1]
[1] http://www.36kr.com/p/218928.html
@爱可可-爱生活
关键词:经验总结, 自然语言处理, Fred Wilson, 博客
《Mining a VC》文本分析的好范例,分析了作为知名VC的Fred Wilson从2003年到2014年发表的所有博客文章,从中发现他的热门关键词、主要主题、各主题代表文章、各主题随时间变化趋势等,可作为文本计算入门范文 [1]
[1] http://bugra.github.io/work/notes/2015-01-17/mining-a-vc/
@好东西传送门
关键词:自然语言处理, Python, 代码, 主题模型
一些关键词提取的工具rake [1] KEA [2] maui-indexer [3] 中文分词工具也有关键词提取,例如jieba [4] Yaha [5] 另外原则上各种主题模型工具都可以改造来用。进阶阅读Quora贴 [6]
[1] https://pypi.python.org/pypi/rake
[2] http://www.nzdl.org/Kea/description.html
[3] http://maui-indexer.appspot.com/mauiapp
[4] https://github.com/fxsjy/jieba
[5] https://github.com/jannson/yaha
@陈天奇怪
关键词:算法, 集成学习
#分布式机器学习# [1] 我在上个学期完成的分布式可容错机器学习通信库,以及大规模boosted tree (GBDT) 的介绍