想练手,爬一个房地产数据网站 curbed,小问题求助一下

2019-07-08 15:58:20 +08:00
 nuistzhou

页面请点击这里
想爬取该页面下的所有房源信息,包括所在的市,州, 可是在网页源码里找不到标准化的字段用来提取该信息。
有人有好的点子吗?
求助。

922 次点击
所在节点    问与答
8 条回复
www6688w
2019-07-08 16:32:19 +08:00
具体什么样
siknet
2019-07-08 16:43:41 +08:00
<meta name="description" content="Located in Coleman, Texas, this 1958 three-bedroom house features Tiffany blue kitchen counters and a bright green bathroom." />

不都写清楚了?
nuistzhou
2019-07-08 16:47:49 +08:00
@siknet 问题是这个不是标准的,其他的房源信息里就不一定有“ Located in ”这些字段。
siknet
2019-07-08 16:51:45 +08:00
@nuistzhou 哪些没有?
nuistzhou
2019-07-08 16:57:36 +08:00
siknet
2019-07-08 17:41:03 +08:00
@nuistzhou 这种情况他本来就没个标准格式,你也没办法的,随便指定一个咯,虽然他写了 nearby Montecito, California.
LanAiFaZuo
2019-07-08 17:48:25 +08:00
是不是爬虫就用 python
nuistzhou
2019-07-08 19:21:08 +08:00
@siknet 哎,就是因为这样没个标准格式,所以来求助 V 友,看是不是我疏漏了什么。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/581038

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX