豆瓣租房信息爬取过滤

2019-07-17 11:33:36 +08:00
 pandameng

#####最近要找房搬家所以启用了去年的爬虫并做了一些修改,现在基本逻辑是:

  1. 标题中带数字的

1.1 四位数整除 50 除不开的 pass

1.2 11 位数电话号码 pass

  1. 一级排除关键字,如果含有直接 pass,比如远点的地点、公寓等

  2. 指定范围关键字,如果含有置为符合数据保存

  3. 二级排除关键字,不包含(2,3)但包含二级 pass 掉,不包含二级置为备用数据保存

一个小组爬 15 页,每页 25 条,每小时爬取一次。

之前也就爬取 5 个小组的,感觉数据还行,昨天增加到 16 个小组,符合的数据增加了很多,但是很多都是各类大中小型的公寓,整的我以为把个人发布的过滤掉了专门筛选了公寓的数据呢。

目前思路只能通过排除关键字增加过滤程度,看多了就会发现有些关键字排除型就大点,比如"南北通透|拎包入住"大概率是公寓或者中介,".*大单间"很多也都是公寓,但是同时也会过滤掉个人发布的

所以大家有没有什么其他思路

4037 次点击
所在节点    Python
26 条回复
pandameng
2019-07-20 18:36:46 +08:00
@twitch 根据过滤的以及爬取的结果来说 确实很多
pandameng
2019-07-21 03:39:02 +08:00
1.目前新增了黑名单过滤词和黑名单表,爬取分析时会保存疑似中介公寓的发帖人,并在爬取后判断帖子的发帖人是否在黑名单中,感觉过滤了很大一部分
2,下一步准备看一下查到的资料-余弦相似度,好像是分词对比相似度,过滤掉相似的帖子标题,应该可以用上
tomxin7
2019-08-01 21:17:17 +08:00
http://house.jiandan.live/index.html 去年就写了这个,不过过滤规则没有楼主的全,打算最近也要优化一下,太多中介的内容了
pandameng
2019-08-12 21:10:14 +08:00
@tomxin7 巧了, 这个网站前几周还在豆瓣上看着有人推荐过,我还试用了一下。
不过你的不同 id 发的相同帖子过滤是怎么计算的,直接在数据库中查询相同的内容吗
tomxin7
2019-08-12 21:12:39 +08:00
@pandameng #24 我只是简单的对比标题是否相同
pandameng
2019-08-12 21:21:52 +08:00
@tomxin7 哦吼 刚开始我也有这样的过滤,不过好多都会改下标题加字减字的,效果不大就取消了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/583724

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX