微博监控程序的 Python 实现

2016-08-12 00:31:41 +08:00
 theodorus
打算用 Python 在 Linux 的纯 CLI 下实现微博监控功能。即对某个用户动态不断刷新,一旦有新微博就保存下来。目前只考虑 txt 存储。不考虑数据库。
***
由于刚学写这种程序,照网上有的程序(尽管代码非常漂亮)。可算法没有绕开验证码这个比较坑的问题。
个人编程水平很浅,希望 V2EX 的朋友告知一些比较好的算法, Python 库等。最好是比较成熟的库。
如果有比较好的代码,希望分享一下。
其他的爬虫程序,也可以分享,虽然 github 很多,但是比较好的感觉还是不太多的。

谢谢(๑*◡*๑)
………
//写了一个晚上,模拟浏览器还没登进去。人生啊人生。
5451 次点击
所在节点    Python
40 条回复
jsonzz
2016-08-12 09:41:33 +08:00
去年写过,当时抓包拿到了 weibo 的 api 。每隔半小时爬取下那个用户的微博数总量,如有变化,再爬,存到 txt 里
em70
2016-08-12 09:46:34 +08:00
@jsonzz 不用抓包拿啊,可以申请正式的 API,否则那些第三方微博客户端怎么开发的
hack
2016-08-12 10:02:22 +08:00
移动端的请求,抓包分析,可能更快
goodluck
2016-08-12 10:06:46 +08:00
如果只看微博是不需要登陆的,看个人信息才需要登陆!
theodorus
2016-08-12 10:11:02 +08:00
@chaichaichai 我也是 CN 域名。现在好像要验证码了。不过还是很想看看你的代码。能不能分享一下?我做个参考。
theodorus
2016-08-12 10:11:53 +08:00
@jsonzz 恩。感觉 API 是比较好的实现方式。打算不模拟浏览器行为了。变数太大了
theodorus
2016-08-12 10:13:45 +08:00
@goodluck 可是我们在浏览器中是需要登录的把?刚才我试了一下,不行。必须要登录应该。 CN 域名。
cenxun
2016-08-12 10:40:12 +08:00
记得手机版可以直接抓的
theodorus
2016-08-12 10:41:57 +08:00
@cenxun 就是验证码的问题。没有验证码很好抓。看来只能用 API 了。
cenxun
2016-08-12 13:43:50 +08:00
@theodorus 你这个验证码是登录时的,还是其他的? 我怎么记得手机版不用登录可以直接抓 json
pheyer
2016-08-12 14:13:20 +08:00
现在的微博有一个痛点,就是收藏的微博可能会被原作者删除,然后你就看不到了,作者要不考虑改善一下?
enyblock
2016-08-12 14:55:30 +08:00
其实可以用 IFTTT 加 evernote 来实现,我会告诉你我用这样的方式来提醒女神的微博的更新么?一旦女神发微博,短信提醒我,微博保存到 evernote.
enyblock
2016-08-12 15:00:20 +08:00
其实并不需要登录吧,我说下我用 IFTTT 的原理,你看能借鉴不?
条件是某微博博主的 rss,不要用微博名字,用微博给用户分配的那个 id,一直去监听这个应该就可以实现了吧。
Clude
2016-08-12 15:20:18 +08:00
@lc4t 超人说的对
haozibi
2016-08-12 16:46:13 +08:00
不用模拟登录,用微博 api 。 http://www.github.com/haozibi/BiWeibo 之前练手写的,凑合看吧
theodorus
2016-08-13 06:22:22 +08:00
@haozibi 嗯。我参考一下。 谢谢。
theodorus
2016-08-13 06:24:42 +08:00
@enyblock 如果是应用的话自然现成的设计和软件相当好。实现起来也很漂亮。 rss 的话我没找到地址?或者微博反爬虫是有的,所以抓不到数据。需要先认证。目前在学 API 。
theodorus
2016-08-13 06:45:14 +08:00
@enyblock 请问你的 IFTTT 怎么写的?触发条件好像是只有自己的 post ?
cszhiyue
2016-08-13 07:05:20 +08:00
@enyblock 微博没有官方 rss 吧。倒是有一个微博档案的提供这个服务。不过并不稳定。
coolloves
2016-08-13 16:14:12 +08:00
如果只是监控某人动态,没必要登录,用移动版的微博.cn 就可以监控,只是部分内容显示不全

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/298772

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX