迫于很多人问,放出「the.top」各大网站热门资讯 API

2020-08-06 21:28:53 +08:00
 Austin2035

拓扑排行榜 https://the.top

本来我只是随便玩玩,没想到后来不断改进成了现在这个样子。

刚开始的时候就几个节点,后来慢慢增加到了现在大约快 200 个节点,爬虫代码也写了一千行(不算调度与杂项), 这些节点根据多方面考量,大致分为 五分钟、一刻钟、一个小时、三个小时、六个小时、十二个小时、二十四个小时等不同的定时爬取等级。

为什么放出 api ?

有利益考量,也有发电情怀。

  1. 有不少人需要,一些导航网站或者自己博客,甚至是自己练手写着玩。再写一些爬虫,学习成本高。
  2. 激励自己维护节点,由于这些节点都是我一个人写的,所有导致一些节点出现了问题不能及时发现,希望各位在使用过程中能够及时的将问题反馈到群中。
  3. 提高知名度, 希望使用者在使用的过程中挂上友情链接,或者注明来源。
  4. 节省服务器带宽,已经有一部分人开始直接爬取 the.top ,不如直接放出 api 。

如何使用 API ?

  1. 查询所有节点相关信息
    节点分为大节点和小节点,拿知乎来举例子,知乎是个大节点,知乎子板块比如全站热搜、科学板块热搜、运动板块热搜,这些就是小节点。
    API 地址: https://the.top/nodes
    如下图:
  2. 根据节点取信息
    假如你想取知乎 最热门的讨论: API 地址: https://the.top/v1/节点名称 /第几页 /每页多少数据
    那你就该访问: https://the.top/v1/zhihu_total/1/20
    返回如下格式数据:
    其中 pages 就是 总页面数,count 就是你获取的条数,data 里面的每一个成员都是一条新闻,包含了标题、链接、热度等信息。

知乎实时热搜数据大约 50 条,如果你取每页 50 条数据,那么返回的 pages 就会为 1

关于稳定性:

自己写的爬虫,还算挺稳定的,除了个别偷懒的节点,主流节点自从我写完以后基本没有出过问题。

使用交流及反馈交流群:

QQ 群:114177
如果你有好的节点分享, 我也会考虑写一个对应的爬虫。 谢谢。

4761 次点击
所在节点    分享创造
28 条回复
hrbwaxdoll
2020-08-10 14:25:32 +08:00
@lookcos 加个微信呗,有合作需求 waxdoll
justin2018
2020-08-11 10:08:56 +08:00
很不错,改天试试用 Scrapy 爬取一下 😁
janda
2020-08-12 11:36:02 +08:00
好东西、收藏了
jaylee4869
2020-08-13 16:32:18 +08:00
伸手党:想要一个命令行客户端。
tonfy
2020-08-17 17:42:49 +08:00
好东西,收藏了
touno
2020-08-18 15:36:45 +08:00
弱弱的问一句~这侵权违法吗?
huruji
2020-08-20 12:57:43 +08:00
收藏
yigemeirenyongde
2020-09-17 10:31:29 +08:00
好人一生平安

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/696279

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX