V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Axurez
V2EX  ›  问与答

Python 中拆分中文句子?

  •  
  •   Axurez · 2014-09-05 23:05:58 +08:00 · 10837 次点击
    这是一个创建于 3731 天前的主题,其中的信息可能已经有所发展或是发生改变。
    比如「这是一首简单的小情歌,唱着人们心肠的曲折。我想我很快乐,当有你的温热,脚边的空气转了。」我想以中文句号拆分这个句子,所以我试了
    separate_lines = re.split(ur'(.*?[\u3002])', line)
    以及
    separate_lines = re.split(ur'(.*?[。])', line)
    好像没有用。
    而如果不加 ur,更是会出现乱码。。。

    如果在 Python 3 下,不加 ur 直接就行了,问题是我要用 jieba,但是 jieba3k 在 PyCharm 里好像不能直接安装。

    应该怎么办?Python 2 的编码问题真是让人抓狂
    2 条回复    2014-09-06 02:08:06 +08:00
    Daniel65536
        1
    Daniel65536  
       2014-09-06 01:55:43 +08:00 via iPhone
    为啥用re……直接str.split(u'。')不行么……
    Axurez
        2
    Axurez  
    OP
       2014-09-06 02:08:06 +08:00 via iPhone
    @Daniel65536 因为实际上还有感叹号问号之类的…没写进题干
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2722 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 12:25 · PVG 20:25 · LAX 04:25 · JFK 07:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.