V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Mavious
V2EX  ›  问与答

有用 Feed43 自制 RSS 源的吗?求问 JS 输出的网站如何爬出内容?

  •  
  •   Mavious · 2016-09-12 15:20:39 +08:00 · 1737 次点击
    这是一个创建于 2782 天前的主题,其中的信息可能已经有所发展或是发生改变。

    feed43 是个好网站,我做了一大堆 rss 源爬各类 g0v 招聘信息,用的很爽 虽然前几个月 feed43 偷偷摸摸把一次输出信息从 100 条降为 20 。。但我还是忠诚的使用它! 但是现在遇到疑难问题!

    测试网站 1 : http://www.zjhrss.gov.cn/col/col_1985059/index.html 测试网站 2 : http://www.xsks.gov.cn/ExamInfolist.aspx?ClassValue=10

    这两个网站都使用 JS 输出, feed43 这种 HTML 纯文本抓取方式没辙了! 第二个站只能抓取左侧栏那些信息,我担心错过消息啊,我想抓主栏目的条目! 或者谁能找一个 JS 输出的地址,方便我爬么?我通过 firebug 找了半天实在不行。。。

    或者有更多支持 JS 抓取的 rss 站点推荐? 我搜了很久, feed43 的功能可以说是全互联网唯一的(通过定制可以输出干净整洁的 rss 文本),没有任何替代网站啊~


    我不是程序猿,谢谢,请不要说什么“自己做一个爬虫”之类的话,要是能自己做我就不会求助了…… 任何意见都可以,求任何点拨!我现在毫无思路啊!


    不能换抓取地址,因为我需要官方消息。


    我用一剪下来指甲打赌,没人回....T_T

    1 条回复    2016-09-12 16:23:05 +08:00
    UnisandK
        1
    UnisandK  
       2016-09-12 16:23:05 +08:00   ❤️ 1
    第一个网站的内容是朝 http://www.zjhrss.gov.cn/gotoPage.do POST 的,内容为
    channelId=1985059&subStr=35&childoption=1&toPage=1&pageSize=15

    第二个网站的内容是朝 http://www.xsks.gov.cn/include/NewsInfo.ashx?ClassValue=10 POST 的,内容为
    Action=getPageData&start=0&end=20

    不是 JS 输出,但的确必需先有一个服务转成 GET 获取才可以用 feed43 抓
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   4791 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 09:52 · PVG 17:52 · LAX 02:52 · JFK 05:52
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.