有这样的爬虫么, 可以爬英文的文档中的单词并统计每个单词在文档出现的次数?

2018-06-20 08:51:23 +08:00
 xoxo419
4010 次点击
所在节点    程序员
18 条回复
ChangQin
2018-06-20 08:57:10 +08:00
有,go 程序设计语言前几节就有这个 demo
jiezhi
2018-06-20 09:01:02 +08:00
python 入门里也有这个 demo 吧
xy2401
2018-06-20 09:01:56 +08:00
mark。我之前想统计 比如 spring 文档里面 的高频词汇,感觉需求类似
yuanfnadi
2018-06-20 09:02:11 +08:00
Java 入门时候写过类似 demo
lhx2008
2018-06-20 09:03:36 +08:00
读进来切一下,python 可以用 counter,java 可以用 stream
NaVient
2018-06-20 09:03:40 +08:00
python --> from collections import Counter
qilishasha
2018-06-20 09:09:43 +08:00
数组长度数组长度
kingname
2018-06-20 10:18:18 +08:00
laoyuan
2018-06-20 10:26:14 +08:00
手写原生
simapple
2018-06-20 10:31:28 +08:00
nltk
soho176
2018-06-20 10:45:39 +08:00
是准备统计最近十年高考英语卷,出现频率高的单词吗?
fengche361
2018-06-20 10:59:52 +08:00
爬取+分词+wordcount ?
yuriko
2018-06-20 11:04:34 +08:00
第一反应是 MapReduce 的范例……
hyi
2018-06-20 11:19:29 +08:00
学 python 时写过一个统计英文 txt 单词词频的 python 小脚本,用的是 nltk 库,你可以参考下思路,https://github.com/Hangyi/parse_words_frequency
jyf
2018-06-20 11:32:09 +08:00
主流的爬虫一般都会统计词频 因为有个流行的算法 TF-IDF 就是拿词频作为计算基础的
woscaizi
2018-06-20 11:46:23 +08:00
写过一个类似的东西,是统计小说中 2 到 5 字的词语出现的次数,没有考虑是否是有意义的词的情况
https://github.com/pandaTED/zhihuSpider/blob/master/src/main/java/cn/panda/hello/Hello.java
Tink
2018-06-20 12:14:02 +08:00
这点功能不如手写
geying
2018-06-20 17:10:37 +08:00
@yuriko +1

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/464270

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX