Python 英文单词统计有什么好的库吗?

2018-09-11 10:34:21 +08:00
 lixuda

python 英文单词统计有什么好的库吗?谢谢

3404 次点击
所在节点    Python
25 条回复
holajamc
2018-09-11 10:38:11 +08:00
from collections import Counter 这个可以嘛?
PythonAnswer
2018-09-11 10:41:02 +08:00
一把梭上 nltk
Aether
2018-09-11 11:25:32 +08:00
1、请先查一下“如何提出好的问题”。
2、什么叫做“英文单词统计”和“好”?在这里的定义到底是啥?
zwithz1998
2018-09-11 11:35:32 +08:00
@Aether ?为啥我觉得问题没毛病?你是杠精吧
shm7
2018-09-11 11:49:06 +08:00
@zwithz1998 “好”的确可以有很多 metrics 可以选择,机器学习、统计里面多到数不清。

单词统计,如果是普通英文文章的话,。。。如果不是的话,也许还要加点描述。
UN2758
2018-09-11 11:52:11 +08:00
google:如何正确提问
SimbaPeng
2018-09-11 12:14:25 +08:00
大批杠精来袭,他们先会以“智者”的姿态教你如何提问,然后再化身成“语文老师”挑你的语句毛病。为了显得自己有多么与众不同,一个“好”字都可以让他们玩出花, 一个个装模作样的样子真令人作呕。
lixuda
2018-09-11 12:24:53 +08:00
@SimbaPeng 感谢支持
lixuda
2018-09-11 12:25:23 +08:00
@shm7 普通英文文章
EchoUtopia
2018-09-11 12:29:22 +08:00
mimzy
2018-09-11 12:29:51 +08:00
NLTK
Procumbens
2018-09-11 12:31:41 +08:00
Python 自带的 Counter,nltk 库的 FreqDist 都可以
binxin
2018-09-11 12:32:58 +08:00
@holajamc 我之前实验,好像用 defaultdict(int) 居然比 Counter 快,不知道为啥。
Comphuse
2018-09-11 12:48:28 +08:00
Les1ie
2018-09-11 13:19:27 +08:00
这个是 NLP 了,如果只是简单的统计词频,使用词袋的方式, `Counter` `defaultdict(int)`两个都是比较简单并且高效的,其他的方法也挺多,比如 TF-IDF 之类

PS: NLP 学不会,我已跑路
ywgx
2018-09-11 13:28:16 +08:00
这个不需要什么库,单词挨个录入 redis 自增计数即可
估计也就 30 行代码的样子 妥妥的
jagger2048
2018-09-11 13:34:43 +08:00
NLTK 分词+统计词频都有现成的方法可以搞定
bbbai
2018-09-11 13:44:25 +08:00
楼上的给出的解决方法大部分都可行,但是如果仅仅是统计,并且不像投入过多精力#16 楼是个一个好办法(属于一个达成目标又不需要学习未涉猎知识的方法)。其他的分词统计什么的可能会在你很晕的时候绕晕你。当然 我推荐你去看下统计词频,其实你的需求很容易实现。ps:因为你提问的描述 我默认你了解的不多了哈,猜测错误当我没说。
lixuda
2018-09-11 13:55:21 +08:00
@bbbai 感谢,的确了解不多,大家推荐使用 NLTK,已经用上了,目前效果还可以
zhzer
2018-09-11 13:58:51 +08:00
Counter 不就完事了?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/488091

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX