V2EX 首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  程序员

花了两天的时间,写出了一个内容推荐引擎(一个面向程序员和极客的今日头条)

  •  
  •   wyan453351466 · 7 天前 · 3190 次点击

    大家好。。我言说的站长。

    这次我给网站开发了一个简易的内容推荐引擎。

    详情戳链接: www.yanshuo.me

    最初的言说首页,内容是按照时间排序的,大概每 10 分钟会推荐一条热门内容。

    现在加入了推荐算法,每次刷新会推荐不同的内容。

    本次推荐算法主要想实现的效果是,每次推荐的内容,既要保证内容的质量,还要保证内容的多样性,以及热度。

    不过现在由于用户数据不够多等的原因,推荐的内容还不够智能化。待优化的地方还有很多!

    希望大家在评论区给出您的意见,和大家用过的推荐算法。

    对爬虫和推荐算法感兴趣的同学,欢迎加群:566806792

    43 回复  |  直到 2017-10-13 21:17:36 +08:00
        1
    hanangellove   7 天前
    赞一个~
        2
    wwdyy   7 天前
    用的什么语言?
        3
    wyan453351466   7 天前 via iPhone
    @wwdyy php
        4
    shoumu   7 天前
    推荐算法是什么样的,详细说说?
        5
    slince   7 天前
    楼上加一
        6
    noNOno   7 天前
    楼上+1
        7
    azh7138m   7 天前
    粉色店、黑金店、LAB 概念店……喜茶的空间设计你学不会!
    还有 B 站&张大妈&知乎
    哪里程序员或者极客了......
        8
    azh7138m   7 天前
    建议好好做妹子图,这个是肛需:)
        9
    andyiac   7 天前
    发现这个网站有一段儿时间了
        10
    wyan453351466   7 天前 via iPhone
    @azh7138m 张大妈是什么。。现在推荐算法还不成熟。。可能会出现不相关内容。。多刷新几次试试
        11
    asomepig   7 天前
    楼主抓煎蛋的妹子图,还没有说明..........这不好吧.
        12
    azh7138m   7 天前
    @wyan453351466 smzdm,一般我考虑过滤到微信的链接,或者让我扫码看微信的,文章质量大幅度提升,或者你直接抓 readhub 的 api 也行
        13
    Chappako   7 天前
    那你也说说你的推荐算法啊
        14
    Antidictator   7 天前
    Chamber 都爬,调皮
        15
    SoulGem   7 天前
    这个之前就有在关注啊,看你的知乎热门还挺有趣
        16
    zpvip   7 天前
    算法都不说,你这是炫耀吗?
        17
    wyan453351466   7 天前
    @shoumu
    @slince
    @noNOno
    @zpvip

    目前的推荐引擎是基于内容的推荐。
    首先要对所有的元数据有一个建模,哪些是科技资讯,哪些是编程类的,哪些是娱乐类的。然后每次推荐时会抽取 10 几条不同类别的内容,进行评分并排序(评分的维度有,用户以往的访问习惯、内容的浏览数、赞数)。抽取评分较高的排在首位,并删除评分最低的后几条。

    现在用户数据不够多的情况下是用的这种方式。更科学的方式可能应该是基于用户的协同过滤推荐等方式(但是需要一定的用户数据才可以玩起来)。

    更详细的算法大家可以看这篇文章:
    https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html?ca=drs-

    现在的推荐引擎还很糙。。我也只用到了这篇文章中的一小部分思想。更多的大家可以互相探讨。
        18
    hjdtl   7 天前
    两天包括页面搭建吗?厉害了。。。
        19
    oukichi   7 天前
    楼主帅呆了,这个风格很喜欢。
        20
    zonzin   7 天前
    这不是死了的 DIGG 吗
        21
    wyan453351466   7 天前
    @oukichi 谢谢!
        22
    wyan453351466   7 天前
    @hjdtl 两天不包括页面。。页面得两个月还差不多。。
        23
    xsliang   7 天前
    不错 加群学习下
        24
    gamecreating   7 天前
    采集搜狗的微信文章吗?
        25
    wyan453351466   7 天前
    @gamecreating 采集的清博数据
        26
    Tairy   7 天前
    刷妹子图的时候被老板看到了
        27
    Tunar   7 天前 via Android
    @Tairy 然后
        28
    Tairy   7 天前
    @Tunar 自觉关了
        29
    joeke   7 天前
    厉害厉害,这爬的哪里的数据,貌似什么都有,五花八门的
        30
    only0jac   7 天前 via Android
    ui 做的相当舒服,请教楼主怎么弄的?
        31
    rogwan   7 天前 via Android
    这是小号的今日头条嘛😄
        32
    wyan453351466   7 天前 via iPhone
    @only0jac 就是用 bootstrap 改的。。
        33
    wyan453351466   7 天前 via iPhone
    @rogwan 哈哈。被发现了😆
        34
    wyan453351466   7 天前 via iPhone
    @joeke 妹子图吗?妹子图是爬的煎蛋网
        35
    unique   7 天前 via iPhone
    很强,支持一下
        36
    wyan453351466   6 天前 via iPhone
    @unique 谢谢!
        37
    carlclone   6 天前 via Android
    厉害
        38
    shitailongshenxu   6 天前
    很不错哦,能共享下源码吗
        39
    davidqw   6 天前
    妹子图,一股清流啊... 有种回到 2000 年互联网的既视感
        40
    Rootcat   6 天前
    必须赞一个,这是本土化的 Reddit !!!
    建议开发 APP,移动端是主流了,PC 端用户有限。
    是个人开发的还是团队呢?
    备案信息是豫字,河南老乡啊
        41
    wyan453351466   6 天前
    @Rootcat 是个人开发的哈。。对,河南老乡。哈哈。

    关于 APP 的事情,我也一直想搞。但无奈我本行一直是做 web 端的。APP 不是我的擅长。。
    这个未来看能不能找到有缘人,或者自己业余学习类似 react 这种技术来实现吧。(原生写的话实现成本对于我这个外行来说比较高,而且还得写两套)
        42
    huangfs   6 天前
    开源地址?
        43
    slince   4 天前
    风格很喜欢,后端是 php 啥框架做的
    DigitalOcean
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   1805 人在线   最高记录 3541   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.0 · 66ms · UTC 13:07 · PVG 21:07 · LAX 06:07 · JFK 09:07
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1