Python 写一个新媒体运营资料库工具合适么?

2018-04-18 10:46:38 +08:00
 fyooo
算是一个外包需求,不过我没有时间接,而且价格不高,帮同行问问。

一个新媒体(主要是微信公众号)要给某小机构写每日热点分析什么的,但是预算不多,所以想用类 AI 技术来每天抓取几个网站的新闻做资料库,然后再让一个金融科班背景的员工复制粘贴一下。

之前没有做过类似的事情,这里好奇跟大家讨教一下方案。

1.抓取资料 - requests 库
这块应该是 python 的强项吧,写个守护进程定时轮询目标网站的更新,当目出现命中特定 keyword 的文章时就 down 下来。

2.资料归类 - ???库
这个领域不熟悉,因为涉及到 NLP 的,大学时候学过的是计算资料库中每一篇文章的包含特定 keyword 个数,统计当天热点 keyword,然后把热点 keyword 的前几片文章内容提取。

3. 拷贝内容
人肉剪切合并文章内容发送


我们大致讨论的技术细节如上,我觉得这个是伪需求,但是每周公众号阅读量却是该机构市场组的 kpi。。。。
2606 次点击
所在节点    程序员
4 条回复
male110
2018-04-18 13:37:18 +08:00
目出现命中特定 keyword 的文章时就 down 下来,这个算不上 ai 吧。
关于分类,自动搞不定就用人工,抓到新的文章时,要人工手动分类。
yedashuai
2018-04-18 14:35:10 +08:00
ai 是个好东西,别管用没用上,只要达到效果就行,可以借这个多要点钱
impresslee1992
2018-04-18 15:06:58 +08:00
这个被投诉 5 次封号了。。。。
acepcs
2018-04-18 15:11:34 +08:00
1. 爬虫类需求,无脑上 python 就对了
2. (伪) NLP 类需求,无脑用 python 也差不多
之前实习做过类似的小工具。。不开玩笑每天工作 8 小时,5 天内能做好上线的节奏。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/447730

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX