自己做了一个‘看知乎’。爬取了每天知乎点赞最多的回答。

2017-09-04 10:00:33 +08:00
 wyan453351466

之前有个知乎用户‘苏莉安’做了一个网站,叫看知乎。

后来这个网站关闭了,现在感觉网上也没有什么地方可以查看知乎每天最多点赞的回答。索性自己撸了一个出来。

下面放链接: http://www.yanshuo.me/r/zhihuhot

另外对爬虫感兴趣的同学欢迎加群:566806792。

顺便分享下自己网站的邀请注册链接 :P

http://www.yanshuo.me/register/invite_code/snx43bOpeKywe3Kqrn2grYOqn6I

18455 次点击
所在节点    程序员
78 条回复
jtam
2017-09-04 10:07:09 +08:00
你知道那个网站被关闭的原因么?
FanError
2017-09-04 10:10:59 +08:00
本来不知道,看到 1 楼这么一说,知道了
wyan453351466
2017-09-04 10:18:14 +08:00
@jtam 这里想解释一下。可能很多朋友会误以为这是抄袭,不规范转载。其实不是的,我只存储了文章的链接,并没有存储原文,这和分享到朋友圈、百度收录链接、网址导航等网站是一回事的。建议你可以搜索一下避风港原则。

关于看知乎关闭的原因,是由于爬虫经常出问题,维护成本高关闭的。详情请看看知乎作者的文章: https://zhuanlan.zhihu.com/p/22477361。
wyan453351466
2017-09-04 10:19:44 +08:00
上面的链接带上了句号打不开。。重发一下

https://zhuanlan.zhihu.com/p/22477361
junbaor
2017-09-04 10:24:23 +08:00
楼主有打算提供 api 或者 rss 吗?
wyan453351466
2017-09-04 10:27:16 +08:00
@junbaor 后期也许会开发一个开放接口出来。但是眼下还在开发网站具体的功能哈。比如社交账号登录之类的。
cjyang1128
2017-09-04 10:30:44 +08:00
做的不错
amon
2017-09-04 10:33:44 +08:00
看了这些热门的帖子,居然基本都不感兴趣,很多都是那种想点击“屏蔽这个问题”的。
不是什么少无人知的技巧(全国人民都知道),就是惊为天人的操作(不明所以呵呵了),有什么文章你会背(九年义务教育语文书上的都写了一遍),再无非就是劝你健身看书刷知乎...
大概就是这些用了几年的套路...
wyan453351466
2017-09-04 10:43:48 +08:00
@amon 这里确实有这个问题。随着知乎用户越来越多,内容越来越水似乎是一种必然。
毕竟社会中的大多数并不是精英,普通人或者说庸俗的人还是占大多数的。。
这里我并没有在这个版块上加入我自己的价值判断,或筛选,仅仅只是单纯的把点赞最多的内容排列出来了而已。
后期也许会改变一下爬取规则,比如通过只爬取特定用户(一些高质量大 V )点赞过的回答,来保证内容的优质率。
huijian222
2017-09-04 10:59:09 +08:00
@wyan453351466 #9 有些人也挺喜欢这些“水”的内容的,就像看故事会一样,乐呵乐呵就好了
junbaor
2017-09-04 11:01:59 +08:00
刚用 Huginn 搞的,顺便问一下,内容变成倒叙了怎么办

http://sg.wkfg.me/users/1/web_requests/11/zhihu.json
http://sg.wkfg.me/users/1/web_requests/11/zhihu.xml
liangguan5
2017-09-04 11:20:22 +08:00
赞一个,感谢!
l00t
2017-09-04 11:22:25 +08:00
为什么要爬一个垃圾站……
cnwtex
2017-09-04 11:29:48 +08:00
我忽然发现, 爱上知乎的人,应该是当年那批爱看<故事会>的人, 都是看回答里面别人讲故事.
rswl
2017-09-04 11:58:13 +08:00
王路飞
youyouzkn
2017-09-04 11:58:56 +08:00
我也忽然发现, 爱上知乎的人,应该是当年那批爱看<故事会>的人, 都是看回答里面别人讲故事.
yukimio
2017-09-04 12:20:25 +08:00
谢谢楼主~~很喜欢。感谢~~
qianmaole
2017-09-04 12:32:26 +08:00
露珠用的啥跑这个脚本啊?最近 vultr 丢包太多。
ljcarsenal
2017-09-04 12:37:02 +08:00
@jtam 什么原因
wyan453351466
2017-09-04 12:50:14 +08:00
@qianmaole 我是用 php 写的爬虫脚本。。然后 crontab 定时执行。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/387943

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX