V2EX 首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  程序员

又创造了一个轮子, C#版本的搜狗微信公众号抓取

  •  
  •   luohaihao · 67 天前 · 1330 次点击
    这是一个创建于 67 天前的主题,其中的信息可能已经有所发展或是发生改变。

    网上看到又不少类似的轮子,但是大多都是 Pyhton,于是撸了一个 C#版本的WeGouSharp (即 Wechat+ Sogou + Csharp)

    暂时采用 HtmlAgility 解析 html

    目前已经完成了基本部分

    但是仍然存在一些小骨头没啃,比如有个验证码的没能重现(望指点)

    还有自动打码,等等,可能会采用 OpenCv/EmguCV 识别验证码,不知道可行性怎样

    现在公开请各位大佬批评,点星或者来叉

    项目地址

    16 回复  |  直到 2017-09-15 19:19:13 +08:00
        1
    ospider   67 天前
    不可行, 搜狗的验证码很变态的
        2
    WeaPoon   67 天前
    加油~~哈!
        3
    justtery   67 天前 via Android
    辛苦了,用 c 艹写爬虫。写个简单的页面抓取都需要写超级多行。并不想打消楼主的积极性
        4
    lyhiving   67 天前 via Android
    可以过得了验证码这一关算我输
        5
    levon   67 天前
    我解析 html 用 csquery,虽然不更新,但感觉超级简单。就跟使用 jquery 一样去获取元素
        6
    Choyes   67 天前
    之前爬过搜狗的微信公众号文章,不过我并没有去处理验证码,而是通过代理来绕过。
        7
    wqxuan   67 天前 via iPhone
    @Choyes 请问下用的哪家代理?最近试用了一家的入门级公开代理(付费),效果很差。
        8
    yangyaofei   67 天前 via Android
    话说微信公众号的评论怎么抓取呢?
        9
    Choyes   67 天前   ♥ 1
    @wqxuan 我是去抓取免费的代理,然后自己维护一个代理 ip 池.参照这边 https://github.com/jhao104/proxy_pool 用 c#做了个简单的代理 ip 池
        10
    missdeer   67 天前
    过不了验证码关就没什么用
        11
    naomhan   67 天前
    验证码我们公司有人用 tensorflow 训练了个模型 好像识别率还可以
        12
    VShawn   67 天前
    为什么要爬微信公众号?
        13
    ljcarsenal   67 天前
    @VShawn 我也有疑问 不过最先做这个的 传送门 的确是火起来了
        14
    finalsatan   66 天前
    @naomhan 有训练数据集可以分享下吗,最近也在做这个,数据量不够,自己生成的验证码总感觉和搜狗的不太一样。谢谢了先。
        15
    naomhan   66 天前   ♥ 1
    @finalsatan #14 不断请求验证码那个链接 就有了
        16
    luohaihao   65 天前
    @ljcarsenal 发现传送门貌似已经一个多月没更新了,所以才发了这个出来
    DigitalOcean
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   2386 人在线   最高记录 3541   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.0 · 60ms · UTC 04:11 · PVG 12:11 · LAX 20:11 · JFK 23:11
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1