抓取全国的特价机票信息,有几种方法?

2013-10-01 03:23:09 +08:00
 NFSwind
人在大连。。
发现
大连飞天津64块钱、大连飞石家庄9块钱。。

于是萌生了一个想法,抓取全国的特价机票信息。。

放在网上以飨大众。。。

方法1,获取去哪儿网,携程网,艺龙旅行等主流站点的页面信息
方法2,获取各大航空公司的信息,不过这样应该是会贵一些的。。。

大家有什么想说的?
1570 次点击
所在节点    数据库
10 条回复
ivanlw
2013-10-01 04:56:52 +08:00
为什么不直接用去哪儿的?
yelite
2013-10-01 10:01:12 +08:00
@ivanlw lz可能是想实时监控票价吧。

方法一我感觉有难度啊,这些主流站点应该都有反抓取的机制,不过既然是能用浏览器看到的东西最后肯定都能抓下来,就是可能要花上一段时间研究。
AlexYang
2013-10-01 10:21:17 +08:00
这些旅游网站的航班信息都是花钱从某某机构买的
loveminds
2013-10-01 15:15:40 +08:00
@ivanlw 有直接使用的api不
cj1324
2013-10-01 15:49:19 +08:00
某些网站,页面上标的价格比实际价格低很多。 你想买的时候才发现 你妹啊 根本不能买。
打了客服电话回复,那些票需要同时买往返才有效。
NFSwind
2013-10-01 16:18:06 +08:00
@cj1324 这种最蛋疼了。。。
forgottencoast
2013-10-01 20:35:34 +08:00
@yelite 非API的维护工作量太大。我做了一个类库,可以完全基于xml的配置模拟Http请求,包括很复杂的流程,甚至支持验证码。这样我们公司可以往别的类型的网站提交复杂的数据。但是一旦别人改版,少则一两个小时,大就要1~2天才能匹配成功。我们的代码完全不用修改,只是修改xml配置文件而以。
6b79
2013-10-02 13:43:59 +08:00
@forgottencoast 请问每次抓取网站改版,你的xml配置修改的工作量有多少?
chendeshen
2013-10-03 00:04:44 +08:00
forgottencoast
2013-10-22 23:57:20 +08:00
@6b79 我们不是抓取,我们是提交数据,很复杂的数据到对方网站。工作量视对方修改的大小。主要的工作量在于隐藏的字段是否要提交,以及如何生成。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/84288

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX