[简单找房] 自动爬取豆瓣房源,时隔半年大幅更新

2019-08-06 19:47:29 +08:00
 tomxin7

网站地址

去年 12 月份,准备换一套离公司更近的房间,突发奇想写了“简单找房”这个网站,得到了很多同学的支持,期间也没有怎么宣传,断断续续服务了几千位同学,用户不算多。
之前无论是用邮件还是第三方微信推送服务,稳定性和体验都不是很好,没有完全的达到简单的称号。索性自己申请了一个服务号,现在只需要简单 4 步就可以添加一个找房任务。豆瓣租房还有一个问题是中介和虚假信息实在太多了,所以近期还加上了过滤规则,可以有效的过滤大部分的无效信息。

运行原理(开局一张图,其他全靠编)

更新内容:

  1. 独立微信推送服务号,使用起来更便捷
  2. 新增房源过滤规则,过滤大部分虚假房源
  3. 优化爬虫服务

过滤规则:

  1. 同一 ID 大量刷帖会被过滤
  2. 同一帖子回复过多,目前过滤回应数大于 5 的帖子
  3. 不同 ID 发布相同内容的帖子会被过滤
  4. 人工维护房源 /ID 黑名单会被过滤
  5. 用户投诉达到一定次数的帖子和 ID 会被过滤

技术选型:

后话:

等有时间想把微博给适配一下
如果需要添加城市或者想交流的朋友,欢迎添加我的微信。

3737 次点击
所在节点    分享创造
20 条回复
herozzm
2019-08-06 19:48:33 +08:00
你等着查水表吧
tomxin7
2019-08-06 19:53:00 +08:00
@herozzm #1 哈哈,其实没有存豆瓣的数据,推送出来的只是豆瓣地址,还是需要跳到豆瓣的。
waler
2019-08-06 19:58:37 +08:00
表哥加个郑州吧
LevineChen
2019-08-07 00:30:19 +08:00
快知 app 里引用豆瓣小组机器人加关键词过滤就可以实现你的需求
tomxin7
2019-08-07 09:57:49 +08:00
@LevineChen #4 嗯嗯,快知很棒,期待安卓版
tomxin7
2019-08-07 09:58:06 +08:00
@waler #3 已添加,要强制刷新一下前端
williamherry
2019-08-07 16:27:57 +08:00
微信登录扫描完空白页啥都没有
tomxin7
2019-08-07 16:39:07 +08:00
@williamherry #7 扫描登录后应该网页会自动跳转的,方便留个联系方式吗?
yl666
2019-08-07 17:37:35 +08:00
已 star
547674115
2019-08-07 17:43:46 +08:00
还挺不错,加油楼主。
Naive1
2019-08-08 11:11:31 +08:00
@LevineChen 请问可以给个邀请码吗?
LevineChen
2019-08-08 11:17:47 +08:00
@Naive1 我没了 关注他们公众号就能获取
zhangchao12cn
2019-08-08 11:54:07 +08:00
@herozzm 豆瓣用户发贴著作权及使用权归用户还是豆瓣
hcy1996
2019-08-08 21:15:38 +08:00
接口 500 了
tomxin7
2019-08-08 21:19:18 +08:00
@hcy1996 #14 哪个接口呢
qwertqwert12345
2019-08-10 22:34:13 +08:00
既然只是提醒,提供一个非微信登录的入口会比较好,比如邮箱
tomxin7
2019-08-11 10:02:23 +08:00
@qwertqwert12345 #16 之前有邮箱的,但是基本会把豆瓣内部的链接判断为垃圾邮件,不加白名单很难收到提醒消息。
gogo88
2019-08-12 10:14:56 +08:00
@Naive1 17J8RQT5
tikazyq
2019-08-12 10:42:10 +08:00
可以把你的爬虫放到爬虫管理平台 Crawlab 上,方便管理爬虫、监控任务

https://github.com/tikazyq/crawlab
williamherry
2019-11-13 09:16:10 +08:00
@tomxin7 不好意思没看到 V2EX 的消息

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/589606

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX