V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
chocho
V2EX  ›  Python

公司反爬虫产品测试,目前处于 alpha 版本,正在寻求测试客户,无奈社区问一波,有需求的伙伴看过来

  •  1
     
  •   chocho · 2019-04-02 10:56:00 +08:00 · 4005 次点击
    这是一个创建于 1279 天前的主题,其中的信息可能已经有所发展或是发生改变。
    反爬虫产品,主要为网站提供反爬虫安全防护,目前有一些业务方集成在自己的业务中去做,我们提供的是一整套防护方案,包括爬虫发现和拦截手段,部署结构采用流量反代的模型,既不影响原业务的开展,也可以拦截大量脚本,模拟器流量。

    前期测试阶段主要通过合作的形式,alpha 版本提供免费测试名额。
    第 1 条附言  ·  2019-04-02 11:54:46 +08:00

    wechat

    第 2 条附言  ·  2019-04-15 16:45:45 +08:00
    添加微信号:17671601524 把你拉进群
    38 条回复    2019-05-01 13:57:42 +08:00
    Abbeyok
        1
    Abbeyok  
       2019-04-02 11:14:07 +08:00 via Android
    不如发个 Demo,让大家测试一下是否真的能防爬虫
    iannil
        2
    iannil  
       2019-04-02 11:14:54 +08:00
    @Abbeyok #1 为什么你回复我能看到你的表情
    StarRED
        3
    StarRED  
       2019-04-02 11:16:52 +08:00 via Android
    🙃
    Abbeyok
        4
    Abbeyok  
       2019-04-02 11:17:05 +08:00
    @iannil 可能这就是心有灵犀
    chocho
        5
    chocho  
    OP
       2019-04-02 11:17:47 +08:00
    这几天陆续会放出一些 demo 和接入方式给大家
    chocho
        6
    chocho  
    OP
       2019-04-02 11:45:47 +08:00
    感兴趣的扫码,进群,里面主要交流测试网站和测试接入,也可以在线提问,可以交流反爬虫知识,测试阶段也可能会有些有偿的竞赛,不排除设奖金做爬虫攻防

    [!text]( https://bob.36deep.com/assets/others/antirobots.jpg)
    xuminzhong
        7
    xuminzhong  
       2019-04-02 12:03:53 +08:00   ❤️ 1
    我是做爬虫的,除了 100% 弹出的图形验证码,还没有我抓不到的。
    lhx2008
        8
    lhx2008  
       2019-04-02 12:10:13 +08:00 via Android
    外挂反爬虫原理也不多,不知道有没有什么新意?反代有没有性能和可用性问题?
    itskingname
        9
    itskingname  
       2019-04-02 12:35:54 +08:00
    做爬虫的同学,大家不要帮他发展反爬虫产品。
    chocho
        10
    chocho  
    OP
       2019-04-02 12:42:44 +08:00
    @lhx2008 反代有性能损耗,可用性不用担心
    chocho
        11
    chocho  
    OP
       2019-04-02 12:43:42 +08:00
    @itskingname 哈哈哈,安全攻防都是存在的,即时我们不做,也是有人在做,另外爬虫这个事情,主要防止恶劣行为,不是所有的东西都是防护的
    chocho
        12
    chocho  
    OP
       2019-04-02 12:44:50 +08:00
    @xuminzhong 哈哈,那你们很厉害啊,请高抬贵手
    tingyunsay
        13
    tingyunsay  
       2019-04-02 13:11:54 +08:00
    可以挂出来,大家一起给你测测😂
    aver4vex
        14
    aver4vex  
       2019-04-02 13:14:52 +08:00
    挂出来,让我们测试下效果。
    lusi1990
        15
    lusi1990  
       2019-04-02 13:17:31 +08:00 via Android
    赶快挂出来测试下
    Johnson66
        16
    Johnson66  
       2019-04-02 13:32:47 +08:00
    #7 加一 除非让用户都访问不了,否则没有爬不了的~
    szpShang
        17
    szpShang  
       2019-04-02 14:13:44 +08:00
    淘宝现在访问都要用户登录了。如果频繁看评论信息还会被限制了。 那现在你们还会像以前访问淘宝吗?但是爬淘宝的数据还是可行的。只是成本增加(需要多个账号和新的调度规则去爬取)。
    反爬的东西只会增加用户的反感,然后增加爬取的成本。等到用户量很少的时候,基本上就不用爬取了(已经没有意义了)。
    计算机的原理就是要想看到数据。这个数据必须存储到本地机器上。就好比邮箱钥匙放在邮箱里面,要想开邮箱必须先拿到钥匙,要想拿到钥匙必须先开邮箱。反爬是否能行呢。
    kisshere
        18
    kisshere  
       2019-04-02 14:16:56 +08:00
    @xuminzhong 就是弹出图形验证码,都能破,除了 recaptcha,是真没办法
    c4f36e5766583218
        19
    c4f36e5766583218  
       2019-04-02 14:22:34 +08:00
    @kisshere 广义来讲都能破,时间问题吧,2333 我瞎说的
    [破解谷歌最新 ReCaptcha 成功率高达 91%的验证反制技术]( https://zhuanlan.zhihu.com/p/53970061)
    chocho
        20
    chocho  
    OP
       2019-04-02 14:26:31 +08:00
    @c4f36e5766583218 是的广义上面来讲 纯前段的反爬虫都是可以破解的,就是时间问题,所以需要动态对抗,或者形式转嫁
    szpShang
        21
    szpShang  
       2019-04-02 14:26:35 +08:00
    @c4f36e5766583218 难度越高,用户体验就会差。体验差,用户量就会减少。一个应用如果用户量少,数据也就失去价值,那还爬它作甚。
    chocho
        22
    chocho  
    OP
       2019-04-02 14:28:29 +08:00
    @szpShang 是的,但是我们这个不会搞那么复杂,正常情况下,用户是不会感觉到有防护的,主要针对爬虫来讲门槛会提高一些
    chocho
        23
    chocho  
    OP
       2019-04-02 14:29:50 +08:00
    @Johnson66 是这样的,但是不会让爬虫那么轻易的就爬到数据,一方面主要是保障业务稳定,另外那些人工打码操作的,就没法防御
    szpShang
        24
    szpShang  
       2019-04-02 15:00:22 +08:00
    @chocho http 本来就是无状态的协议。就是永远也不知道当前的协议是什么状态的。
    就好比计算机本来设计规则让水从高处向低处流。而你却在这个设计规则上去忤逆这个设计让水从低处向高处走。
    互联网的技术都是防止数据传输时候泄漏。现在变成要识别客户端利用刚浏览的数据对发布者是否有弊端。
    抛开如何繁琐的 cookie 获取历程的技术问题(完全可以人工操作掉)。这个业务真的是有意义吗。

    以前爬取携程时候,如果爬取太频繁,价格就会故意错乱。个人猜测杀熟技术就是源于此。你这个业务真的是识别爬虫还是识别老用户,为杀熟技术提供温床。
    chocho
        25
    chocho  
    OP
       2019-04-02 15:06:59 +08:00
    @szpShang 分析和很到位,这种的太敏感的数据,很多公司做了不少的账号权限,可以规避这种问题,与反爬虫要解决的安全风险问题有重叠,cookie 这些都是不错的防御方案,但是明显如你所说,完全在前端做太多的文章是没有意义的,可能需要一些新的思路来解决这个问题
    joesonw
        26
    joesonw  
       2019-04-02 16:14:53 +08:00
    summer1988
        27
    summer1988  
       2019-04-02 18:20:28 +08:00
    我觉得限制型反扒没必要, 假数据貌似更有意思一点
    chocho
        28
    chocho  
    OP
       2019-04-02 18:25:40 +08:00
    @summer1988 数据投毒是吧
    xuminzhong
        29
    xuminzhong  
       2019-04-02 22:29:55 +08:00 via Android
    @joesonw 谢谢,我们有使用类似服务。
    51300520
        30
    51300520  
       2019-04-03 01:14:43 +08:00
    标记 一下
    chocho
        31
    chocho  
    OP
       2019-04-03 09:53:16 +08:00
    @xuminzhong 你们也用了反爬虫?你不是爬虫吗?
    ghmasiol
        32
    ghmasiol  
       2019-04-03 10:18:06 +08:00
    以前用 es 分析 nginx 日志,用 iptables 封,感觉误封了好多搜索引擎爬虫...
    chocho
        33
    chocho  
    OP
       2019-04-03 11:07:47 +08:00
    @ghmasiol 反爬虫的效果怎么样?搜索引擎的话 可以使用 DNS 反解 或者 购买 IP 来实现
    chocho
        34
    chocho  
    OP
       2019-04-04 14:52:44 +08:00
    还有小伙伴吗?我再来问一波
    Northxw
        35
    Northxw  
       2019-04-04 22:58:30 +08:00
    如果很牛逼的话 误伤呢?
    cstackess
        36
    cstackess  
       2019-04-09 16:27:47 +08:00
    安全的博弈,最终是成本的博弈,没有价值的东西才是最安全的
    chocho
        37
    chocho  
    OP
       2019-04-15 15:16:12 +08:00
    @cstackess 哈哈,不见光的东西,又有价值的才是安全的,比如说古墓?
    liwenbest
        38
    liwenbest  
       2019-05-01 13:57:42 +08:00
    @xuminzhong 可以加下联系方式吗 QQ 或微信都可以
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1524 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 49ms · UTC 17:02 · PVG 01:02 · LAX 10:02 · JFK 13:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.