DXC 采集,一个跨平台的数据采集软件

2017-01-11 21:19:41 +08:00
 milu05163614

爬虫估计已经泛滥了,但是没有通用的解决方案。

好比大家想造一辆汽车,网络上各种开源的发动机,底盘,你可以轻易的组装出自己的汽车,然后跟我说,看,组装出一台汽车没什么难的,难的当然是量产了,下次你再想要一辆汽车,你还得重复上面的过程。而且你的方案,别人又没法轻易使用,好比你给自己做了一件衣服,衣服好看是好看,别人想穿在自己身上,就未必合适了。

市场上面一些解决方案。逛了一圈论坛,的确也发现一些不错的软件,但感觉都存在不少问题。

我的软件就是为了解决上述问题而产生。

1 、不会编程也可以编写采集规则
2 、几分钟内就可以完成一条规则,刷刷刷的采集了。而你还在那调试代码。
3 、通用的解决方案,基本上大部分网站都可以采集。对于一些个性化的需求,未来估计会开放一些接口,就可以针对性的低成本开发自己的爬虫系统。

当然了,上面都是功能上的描述。

还有其他功能:

1 、跨平台。目前支持 win 、 mac 、未来会支持 linux 。

程序不是.net 开发的,我最烦那些软件下载完还提醒我去下载什么 .net framework 框架,何况我很多年不用 win 了。 mac 下面的此类工具真的挺稀少。

2 、可以使用浏览器访问,也可以在软件里面操作。就像你家的路由器,你可以通过网页去控制。这个软件也是一样。如果你装在服务器,你可以通过网页轻易去访问,操作。这个功能非常有用。

3 、当然了,使用很简单。不用你安装什么环境。下载即可使用。开箱即用。写规则也很简单。这些可以慢慢体会。

界面截图:

下载地址: http://www.dxcer.com/
官方论坛: http://bbs.dxcer.com/

目前已经有不少用户使用这个软件,且评价都不错。

4087 次点击
所在节点    分享创造
51 条回复
milu05163614
2017-01-12 21:33:36 +08:00
@miao 目前软件可以在 linux 图形界面下面运行没问题的。不过很多服务器都是命令行。这个需要花点时间。
miao
2017-01-12 21:38:23 +08:00
@milu05163614 是啊. 比较复杂.
spice630
2017-01-12 23:03:28 +08:00
需要登陆的可以不?比如 zhihu
难道你的采集程序不是前后端分离,后端基于 linux 开发?
milu05163614
2017-01-13 00:05:43 +08:00
@spice630
1 、可以采集登录可见的内容,甚至可以采集一些论坛回复才能看见的内容。设置 cookie 就行了。详细教程看这里 http://www.dxcer.com/guide/cookie.html

2 、我不知道你说的什么前后端是啥。什么基于 linux 啥的,我听不懂。
spice630
2017-01-13 00:27:51 +08:00
@milu05163614
1.手动登录?
2 。。。。
milu05163614
2017-01-13 00:30:03 +08:00
@spice630 手动登录有什么问题吗?难道要大家输入账号密码,然后程序去登陆?想不通为啥需要这样做。
spice630
2017-01-13 01:21:13 +08:00
@milu05163614
不会 被封?
milu05163614
2017-01-13 01:26:47 +08:00
@spice630 说实话。很少。不是很少,是没遇到过。一个网站不可能因为一个用户频繁访问而封掉这个账号。这样做,成本很高。程序上面得写程序检测,又不能误杀什么的。这么一套东西下来,很繁琐。
至少我没有遇到这类情况。
spice630
2017-01-13 01:34:29 +08:00
@milu05163614 早点 睡觉~~~
spice630
2017-01-13 08:21:18 +08:00
@milu05163614
有个问题 如果不能自动登录 那我每天要采集几十个网站的最新消息怎么办
taolu729099134
2017-01-13 10:54:44 +08:00
同 15 楼 我的也出现乱码
milu05163614
2017-01-13 13:17:41 +08:00
@spice630 你采集什么网站,几十个都要登录才能看见内容。我接触过的采集需求,只有 5%左右需要登录可见。

拷贝 cookie 进去采集,这个没什么麻烦的,只有这个办法。除非你有更好的办法。
milu05163614
2017-01-13 13:54:52 +08:00
@taolu729099134 用的啥解压软件
v9ox
2017-01-14 12:42:43 +08:00
马克了

很强大 明天就下载用用
yivanus
2017-01-14 14:34:15 +08:00
@spice630 一旦涉及自动登录的话,就需要考虑验证码识别了。。。这又是一个大头了。
milu05163614
2017-01-14 14:51:34 +08:00
@yivanus 是的,首先产品会变得复杂了。你需要填用户名、密码、有时候还需要填其他东西,还得告诉程序,登陆成功的标志是什么,如果程序内置自己判断的话,后面的代码可想而知。

从程序、产品上都是成本很高的东西。手动填 cookie 没什么问题,这是最简便成本最低的方式。
yivanus
2017-01-14 15:08:10 +08:00
如果用户自己实现登录到时很简单的。用户名和密码 可以使用 lastpass 这类 浏览器插件 来帮忙完成。成本也就只在 复制 cookie 那一下。
milu05163614
2017-01-14 15:41:27 +08:00
@yivanus 目前软件的方式就是,用户自己在浏览器登录,然后复制 cookie 就可以采集登录可见的内容。
这个过程很简单也没有什么技术门槛。除非有更好的方式。
yivanus
2017-01-14 15:50:22 +08:00
@milu05163614 可以尝试 解决不需要 验证码那一类的网站,软件可否打开浏览器登录页,然后让 lastpass 这一类软件帮忙自动输入,然后登录,抓取 cookie ??

或者可以通过分析 网页表单,让用户 设置用户名和密码之类,通过 js 直接提交完成登录,抓取 cookie 。
milu05163614
2017-01-14 15:58:25 +08:00
@yivanus 你现在还是觉得复制个 cookie 很麻烦?只需要用户在浏览器登录,然后软件自己就自动获取 cookie ,复制都不需要?还是什么,我没听明白。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/333968

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX