我以网站
dictionary.com 收录的词汇作为研究对象,编写了一个 python 爬虫把网站的全部词汇爬去下来。
保存到文本文件中去。然后对文本文件进行基本的分析,得出一些有趣的结论。
dictionary.com 网站收录的词汇总数是 214018 个
```
$ wc words.csv
214018 306517 11791535 words.csv
```
我对上述 21 万词汇按照如下条件进行了分类:
普通单词(无首字母大写,不存在空格,不存在标点符号等特殊字符,不存在数字) 88485 个
是否前缀词根 1031 个 (如: demi-)
是否后缀词根 86 个 (如: -phoresis)
单词中是否存在数字 279 个 (如: iodine 131)
是否名词 42474 个(首字母是否大写, 如: Zoroastrianism )
是否短语 69714 个(多个字母,中间有空格, 如: A bird in the hand is worth two in the bush )
是否有标点或特殊字符 83813 个(如: A Coruña )
收录的最长的单词是 pneumonoultramicroscopicsilicovolcanoconiosis
总共 45 个字母意思是 矽肺病
同学们如果有更多问题欢迎提问,也欢迎加入我们的微信群聊一起交流,入群小助手请加
微信号:eXc3NjY0 (base64 解码)
入群信息请写 “加英语群”