V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
jason94
V2EX  ›  分享创造

新闻网页正文通用抽取工具 Node.js 版本

  •  
  •   jason94 · 2019-10-09 12:36:15 +08:00 · 2233 次点击
    这是一个创建于 1654 天前的主题,其中的信息可能已经有所发展或是发生改变。

    上个月看到大佬发的/t/599166,国庆研究了一下代码和论文,把大佬的代码用 JavaScript 写了一遍,做了一些修改,目前感觉效果还可以。

    下一步考虑在浏览器中运行。

    repo: zenghongtu/general-news-extractor-js

    online demo: https://general-news-extractor-demo.stayin.cn

    8 条回复    2019-10-11 11:28:41 +08:00
    Sanko
        1
    Sanko  
       2019-10-09 12:48:09 +08:00 via Android
    资瓷
    momocraft
        2
    momocraft  
       2019-10-09 12:54:44 +08:00
    不是新闻网页(比如没有日期)也适用吗?
    cydian
        3
    cydian  
       2019-10-09 13:38:40 +08:00 via Android
    图片呢?
    0o0O0o0O0o
        4
    0o0O0o0O0o  
       2019-10-09 13:38:49 +08:00
    早就想要了,感谢楼主。

    整到了 cloudflare workers 上

    ```sh
    $ curl -s -o test.html http://baijiahao.baidu.com/s?id=1646431966952708911

    $ curl -s -X POST https://demo.extract.workers.dev/demo -d @test.html | jq
    {
    "title": "国庆黄金...000 万人次",
    "author": "",
    "publishTime": "10 月 4 日",
    "content": "..."
    }
    ```
    optional
        5
    optional  
       2019-10-09 13:45:32 +08:00
    jason94
        6
    jason94  
    OP
       2019-10-10 09:01:22 +08:00 via Android
    @momocraft 不是日期的问题,算法不适用额
    zjiecode
        7
    zjiecode  
       2019-10-11 08:24:12 +08:00
    jason94
        8
    jason94  
    OP
       2019-10-11 11:28:41 +08:00
    @mrjiejiejie 这篇应该正文太短了,最后算出来的分数低了一点,晚点我看看怎么修正
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2902 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 02:44 · PVG 10:44 · LAX 19:44 · JFK 22:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.