大家试试这个抓页面特定内容的web应用如何? 可以用来抢票,实时监控特定页面部分

2012-07-20 11:40:50 +08:00
 people2net
使用jsoup/jquery开发的web应用

http://www.gbin1.com/technology/democenter/20120720jsoupjquerysnatchpage/index.html

可以指定按特定时间间隔抓取页面中指定的元素。 效果还不错,大家觉得如何?
5172 次点击
所在节点    Java
17 条回复
people2net
2012-07-20 11:46:08 +08:00
大家也可以抓新浪首页的滚动消息:

地址:http://weibo.com/
元素:.itemt
间隔:10
bcxx
2012-07-20 12:00:07 +08:00
啊!好犀利!

楼主你好,楼主再见!
binux
2012-07-20 12:21:57 +08:00
siteproxy.jsp

没意思。。
people2net
2012-07-20 13:01:41 +08:00
一个简单的实现,大家可以完善
dongbeta
2012-07-20 13:05:51 +08:00
... JAVA 节点 ...
cxh116
2012-07-20 13:07:27 +08:00
本地运行就没有啥意思了 如果运行在服务器到时还不错
js解析是个大问题,直接运行个浏览器机子的配置要强 不过估计并发还是上不去
manhere
2012-07-20 13:14:01 +08:00
要抓取的东西没有id怎么办?
chairo
2012-07-20 13:31:10 +08:00
抓过来没样式没js的有啥用?
BOYPT
2012-07-20 13:41:51 +08:00
@manhere 这是个java库jsoup解析HTML的例子,使用jquery的选择器语句灵活选择。

Python里面也有个pyquery,完全封装了jquery的操作方式,处理HTML特别方便的。
valianliu
2012-07-20 13:51:22 +08:00
有个Chrome插件叫Page Monitor我会随便告诉你么。。。。。
muzuiget
2012-07-20 15:48:54 +08:00
@BOYPT 不是的,抓包发现有个「siteproxy.jsp」 用服务器实现跨域取得页面内容,然后扔回浏览器用 JQuery 解析

注定抓不了需要登录的页面了,还不如直接用浏览器扩展脚本搞定,浏览器扩展脚本的xmlHttpRequest 有跨域权限。
csx163
2012-07-20 17:02:20 +08:00
支持xpath就完美了
BOYPT
2012-07-21 22:28:50 +08:00
@muzuiget 这也需要抓包么,人家源码里面写着好吧。然后这个页面是文章 http://www.gbin1.com/technology/javautilities/20120720jsoupjquerysnatchpage/ 的例子好吧。
muzuiget
2012-07-22 00:15:48 +08:00
@BOYPT 一开始没想到会去看源码吧,用 httpfox 监视一下就马上看到结果了。

好吧,确实是服务器解析抓取的内容,因为我瞄了返回的 HTML,看到 html/head 标签以及一大票内容就以为是把目标页面的 HTML 发过来了,而不是仅仅抓取的内容的 HTML。那些多余内容都是广告和统计代码。
CP9
2012-07-23 10:04:31 +08:00
这个东西怎么用啊?可以用来抓去网站的一些壁纸吗?求使用方法
xingzhi
2012-07-24 14:12:42 +08:00
请教,在抓取内容时,遇到要ajax加载才能出现的内容怎么办呢
people2net
2012-07-24 14:19:02 +08:00
那你可以考虑抓加载使用的容器

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/42943

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX