论文做实验需要英文分词和单词提取，有啥好python库推荐么 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 4597 天前的主题，其中的信息可能已经有所发展或是发生改变。

其实主要是把一篇文章的关键词（所有出现次数大于等于1的英文单词，不考虑词组）全部提取出来然后按我自己的算法来建立索引就OK了，python直接写其实也挺方便，

不过还是想问问，有专门处理这类问题的库么？尤其是如果能直接从网页上抓取并过滤html就好了。因为实验要设计挺多不同领域的文档做统计，我就不想复制到txt了。。。。

嘿嘿，首次发主题，谢谢诸位.

4 条回复 • 1970-01-01 08:00:00 +08:00

1

eric

2012-07-23 16:45:14 +08:00

1

NLTK 的 word_tokenize 就能很方便的实现。
http://nltk.org/

2

stackpop

OP

2012-07-23 16:53:17 +08:00

@eric 的确好强大，就是我想要的东西。之前打算用C++ 写，后来朋友建议用python,代码简洁得多，果然py强大~难怪国外好多大学CS第一门编程课改成python了，呵呵

3

fanzheng

2012-07-24 00:08:04 +08:00

如果只是出现次数的话用split然后counter()嘛，官方模块文档里面的counter()

4

from0tohero

2012-07-26 18:39:19 +08:00

1

NLTK最好没有之一～

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 2620 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 23ms · UTC 06:32 · PVG 14:32 · LAX 22:32 · JFK 01:32
Developed with CodeLauncher
♥ Do have faith in what you're doing.