分享下爬山虎采集器的自动识别算法动态图

2017-12-29 21:26:29 +08:00
 oness
之前的主题都是文字性描述,可能不够直观。之前:https://www.v2ex.com/t/411413
估计很多人没看明白,或者看不下去(体验不好。。。

刚做了几个动态图,用来演示爬山虎采集器的自动识别算法。

1.东方财富网的采集效果


2.新浪新闻的采集效果


3.v2 的效果


测试的都是列表页,爬山虎也能够深入到内容页去抓取(通过抓取链接的深入),也是非常简单。

目前来说,列表数据和分页的识别率都还可以。
相对于其他采集软件来说,优势就是稍微简单、方便点。

爬山虎采集器网站: http://www.51pashanhu.com/
(网站目前来说,做的很烂,准备优化一下 )
4728 次点击
所在节点    分享创造
26 条回复
slgz
2017-12-30 17:09:17 +08:00
马克
fange01
2017-12-30 18:36:27 +08:00
体验了淘宝和京东,不错。
faketemp
2018-01-02 14:28:24 +08:00
局域网中无法使用吗 打开软件一直提示请确认系统日期正确,软件即将关闭 然后就自动退出?@oness
NirvanaCN
2018-01-03 10:25:52 +08:00
简单使用了下,确实比较简单好上手,但是发现两个问题:1.官网显示免费版可导出 CSV,实际只能 1000 条 /天 TXT ; 2.脚本命令必须付费才能使用,这点比较蛋疼
oness
2018-01-03 10:45:19 +08:00
@faketemp 目前只能在联网状态下用
jyf
2018-01-03 12:30:41 +08:00
@oness 你这样搞还是以前共享软件的思路 建议你改变思路 让每个运行者通过自己的独特 ip 来对他人提供收费服务 赚取到的费用来用支撑他使用你这个软件的权限 把平台做起来多好
faketemp
2018-01-03 12:42:26 +08:00
@oness 既然已经限制了免费版的核心功能 就没必要必须联网使用了吧?比如想在局域网中统计内网网站少量数据啥的 很不方便建议考虑。还有字段设置正则表达式替换时“.”好像不支持匹配换行?建议增加多行模式
oness
2018-01-03 13:31:23 +08:00
@jyf 嗯,这个思路很好。但是因为技术局限。很难把这种 P2P 模式做好,做文档。
oness
2018-01-03 13:36:13 +08:00
@faketemp 的确有在内网采集的需求,我在考虑下。 正则表达式后面会加几个配置选择。感谢建议
oness
2018-01-03 13:36:42 +08:00
@NirvanaCN 这个网站还没更新,稍后就改
faketemp
2018-01-03 15:04:40 +08:00
@oness 还有测试使用爬山虎时类似下面内容列表如何准确识别呢? Xpath 需要手工修改吗?请教……
比如 http://www.shui5.cn/article/NaShuiTiaoZhen/
Myflos
2018-01-03 15:50:54 +08:00
@oness 可以爬 58 的手机号吗
oness
2018-01-03 19:29:30 +08:00
@Myflos 应该可以
oness
2018-01-03 19:29:46 +08:00
@faketemp 修改列表 xpath ://div[@class='arcList']/ul/li
faketemp
2018-01-04 08:49:54 +08:00
@oness 这样设置无法正确解析列表元素,具体如图
![xJv3e.jpg]( https://t1.picb.cc/uploads/2018/01/04/xJv3e.jpg)

想要的结果图类似下图(问题是图中仅采集了各段首条信息,段中其他条目数据如何设置才能同时采集到?)
![xJWpc.jpg]( https://t1.picb.cc/uploads/2018/01/04/xJWpc.jpg)
yanza
2018-01-04 10:58:39 +08:00
挺不错的,不过代理只能添加一个,如果可以设置成批量添加代理就更好了,使用一个代理很容易被封
oness
2018-01-04 12:18:12 +08:00
@faketemp 用 //div[@class='arcList']/ul/li xpath,然后点击字段列的下拉菜单,“选择元素”,然后点击要列表其中一项就可以。
oness
2018-01-04 12:19:36 +08:00
@yanza 代理的话,正准备强化下,提供 adsl 拨号和路由器拨号 2 种
chroming
2018-01-04 18:35:36 +08:00
只有 Win 端啊
oness
2018-01-04 19:34:49 +08:00
@chroming 嗯,只会 win。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/418729

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX