有哪些值得抓取的网站?

2018-04-25 02:02:42 +08:00
 rock_cloud

打算构建一个无偏语料库,因此需要爬取各行各业相关的网站,想问一下大家知道哪些主要内容是文本的网站。 目前收集到的网站有大概以下几个分类

综合新闻站

垂直 /非垂直论坛

问答站

媒体

财经

医学

影视

小说

教科书


这里并没有列全,目前在抓的有 60 个网站左右,每天能获取 300K 个页面,单机。想问问大家有没有什么别的类目、行业、领域以及各分类下的文字类网站可供补充?无所谓内容质量好坏。

4571 次点击
所在节点    问与答
27 条回复
rock_cloud
2018-04-25 11:05:38 +08:00
@yense jandan 已加入豪华午餐,放心,速度非常慢,大约一分钟一个请求,不会占用很多流量的
rock_cloud
2018-04-25 11:07:52 +08:00
@yense 额。。错了,应该是 20 秒一个请求。。。
greatghoul
2018-04-25 11:08:31 +08:00
pornhub
lingo
2018-04-25 11:55:50 +08:00
@huluhulu 回复最上方,3 楼就出现 1024 了嘛。
F1024
2018-04-25 13:22:40 +08:00
91 哈哈哈哈
yunye
2018-04-25 13:54:05 +08:00
抓谷歌比较划算,抓一个站啥都有了
rock_cloud
2018-04-25 14:39:47 +08:00
@yunye Google 反爬做得好,不好抓,费时费力

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/449595

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX