Python 爬虫的活,有感兴趣接活的么。

2020-05-21 22:57:36 +08:00
 Marsss

背景:同事的小孩,毕业设计里有一块,是通过程序抓取电力舆情信息,存储到数据库,筛选热点词汇进行展示,支持数据导出.

他小孩没学过 Python,不知道为什么他们老师要求他做这个。于是他老爸找到我这了,我程序写到一半,问了一句需要界面吗,结果是要,如果不要,无法展示给老师看,我想了一下也是,在命令行下展示,不说他不会,他老师也看不懂,没有效果。总之就是要做个带界面的。emmmm.....,想了一下,还是让论坛里有空余时间的老兄们来做好了。。。

需求我再稍微描述清楚一点: 1.抓取目标网站,他告诉我的那个网站我看了,是个小站,数据量很小,链接也很规律,就给他全爬了吧。提取字段:标题,URL 、文章内容、文章时间等应该就够了。

2.将数据存储到数据库,我理解吧,从简,sqlite3 即可

3.热点词汇筛选,就是再从数据库里取出数据,从标题以及文章内容里提取给定的热点词汇(他就告诉了三个词汇),做点统计展示出来

4.导出数据到 txt 、doc 、pdf

没啥难点,要做个界面,界面上四个按钮对应上面四个需求,一个展示控件,要求:不能做太好看了,哈哈。我让他具体画了一下,到时候联系他。

多少钱以及更多细节,联系他沟通一下吧,如果说你们沟通之后有需求出入,你直接视变化谈价即可。他们都是非计算机专业的,对代码什么的不理解,沟通时稍微有点耐心。

这是他微信:wxid_r25xosiov3ou22

5041 次点击
所在节点    Python
29 条回复
kennnnnnnnnnn
2020-05-22 09:34:59 +08:00
@nasmatic 笑死
inktiger
2020-05-22 10:34:54 +08:00
爬虫工程师,可惜我是 java
leapV3
2020-05-22 11:00:55 +08:00
scrapy+pyqt 很容易实现你的要求,想好看的,也可以做一个管理后台
superrichman
2020-05-22 12:04:39 +08:00
功能不复杂,但不支持学术造假
cherbim
2020-05-22 14:17:39 +08:00
这个特台简单了吧。。。。。
wersonliu9527
2020-05-22 16:23:50 +08:00
@nasmatic 笑笑,有被谢到
jizhihaoSAMA
2020-05-23 20:06:35 +08:00
tkinter 多好啊,秒做。不需要 qt
zytomorrow
2020-05-26 14:47:19 +08:00
爬数据倒是还好,刚帮人怕了一大堆微博相关疫情的数据。展示就几个词云,如果非要界面,用 flask 做后端,准备几个接口比较快
Macv1994
2020-06-02 10:10:03 +08:00
还需要做吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/674199

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX