V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lemonada
V2EX  ›  程序员

关于如何计算每日新闻的热点

  •  
  •   lemonada · 2019-10-31 20:08:01 +08:00 · 1898 次点击
    这是一个创建于 978 天前的主题,其中的信息可能已经有所发展或是发生改变。
    想做个小玩意,抓取一定量的新闻然后,通过一些计算得出,每天发生的热点事件.
    目前想用 Apriori 算法,利用 jieba 切词计算各个关键词的关联性,然后得出一个热点的关键词集合.
    写完之后发现 apriori,算法能得出的叶子节点太多了,不知道怎么后续计算了.
    请问各位老哥有没有什么别的新思路,或者舆情分析的思路.
    10 条回复    2019-11-09 12:19:11 +08:00
    lemonada
        1
    lemonada  
    OP
       2019-10-31 20:08:31 +08:00
    写了 2 个多星期 硬是没写出来 各位老哥有啥思路吗
    lemonada
        2
    lemonada  
    OP
       2019-10-31 20:16:45 +08:00
    期间看到了 LDA 算法 ,这个能解决目前的问题吗
    rogwan
        3
    rogwan  
       2019-10-31 20:35:53 +08:00 via iPhone
    1 你这个肯定要给抓来的新闻源标权重,要不内容里重复出现关键词就会增加热度。比如人民日报出现一次的新闻,比八卦站出现 10 此的新闻,是热点的概率高。

    2 你最好先让内容分类,分类算法很成熟啦,然后在小类里直接就按信息源权重,加个时间算法综合排序就好了。那些八卦新闻整的都是 n 年前的明星八卦都有,根本分析不出来是不是真热点。
    futamilk
        4
    futamilk  
       2019-11-01 02:41:44 +08:00
    LDA 我认为应该是可以的,但是如果让我来做,我会先试试直接用 tf.idf 。一般来说从简单的搞起比较好,不然忙活了半天也不知道性能到底提没提高。
    lemonada
        5
    lemonada  
    OP
       2019-11-01 09:53:24 +08:00
    @rogwan 谢谢 这个思路挺好的
    lake325
        6
    lake325  
       2019-11-01 10:29:33 +08:00
    这个是我用结巴根据标题热度切出来的 8 月份到现在的微博热搜数据,效果不太理想

    http://ownwiki.cn:8806/hotso/v1/hotword/weibo/json/100

    感觉知乎的热搜更具有大众参考价值,后续考虑把知乎的 hot 数据做个年度汇总
    lemonada
        7
    lemonada  
    OP
       2019-11-01 11:30:52 +08:00
    @lake325 有点头大 新闻是能捕捉到但是其他新闻太多了 会冲刷掉热点
    lemonada
        8
    lemonada  
    OP
       2019-11-01 11:31:07 +08:00
    @lake325 跟你这个结果差不多
    newphper
        9
    newphper  
       2019-11-08 14:21:51 +08:00
    我也在做这个,我现在具备给每一条新闻计算实时热度的能力。
    我是计算新闻实时热度,全是自己算的,不需要微博热搜,百度指数等参考。
    分词只是其中一小部分,词和词之间的权重是不一样的,比如坠机和公司,两个词的重量就不一样。
    还有新闻相似度计算,这个才是重要的。同样的热点新闻,多的时间快两百家媒体报道。
    我业余做这个已经做了一年多了,你可以看看我的产出

    微博:《今日主流热点》 https://weibo.com/u/6926438705 (每小时定时发送本小时计算出来最热的新闻, 还有突发热点,实时误差 15 分钟)
    公众号:《今日主流热点》(麻烦自己搜了)(每天总结当天最热的 25 条热点)
    每条热点都能计算到有多少新闻源报道,每小时的热度趋势变化。

    你可以先抓微博的,微博的比较短。新闻媒体的话抓几家有新闻采编权的主流媒体就行了,大部分都是抄来抄去的。
    lemonada
        10
    lemonada  
    OP
       2019-11-09 12:19:11 +08:00
    @newphper 感谢 我看一下您的结果
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2708 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 15:25 · PVG 23:25 · LAX 08:25 · JFK 11:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.