Python 爬虫的活,有感兴趣接活的么。

2020-05-21 22:57:36 +08:00
 Marsss

背景:同事的小孩,毕业设计里有一块,是通过程序抓取电力舆情信息,存储到数据库,筛选热点词汇进行展示,支持数据导出.

他小孩没学过 Python,不知道为什么他们老师要求他做这个。于是他老爸找到我这了,我程序写到一半,问了一句需要界面吗,结果是要,如果不要,无法展示给老师看,我想了一下也是,在命令行下展示,不说他不会,他老师也看不懂,没有效果。总之就是要做个带界面的。emmmm.....,想了一下,还是让论坛里有空余时间的老兄们来做好了。。。

需求我再稍微描述清楚一点: 1.抓取目标网站,他告诉我的那个网站我看了,是个小站,数据量很小,链接也很规律,就给他全爬了吧。提取字段:标题,URL 、文章内容、文章时间等应该就够了。

2.将数据存储到数据库,我理解吧,从简,sqlite3 即可

3.热点词汇筛选,就是再从数据库里取出数据,从标题以及文章内容里提取给定的热点词汇(他就告诉了三个词汇),做点统计展示出来

4.导出数据到 txt 、doc 、pdf

没啥难点,要做个界面,界面上四个按钮对应上面四个需求,一个展示控件,要求:不能做太好看了,哈哈。我让他具体画了一下,到时候联系他。

多少钱以及更多细节,联系他沟通一下吧,如果说你们沟通之后有需求出入,你直接视变化谈价即可。他们都是非计算机专业的,对代码什么的不理解,沟通时稍微有点耐心。

这是他微信:wxid_r25xosiov3ou22

5021 次点击
所在节点    Python
29 条回复
zengxs
2020-05-21 23:21:51 +08:00
虽然原则上不建议毕设作弊,不过这个时间点,不找人做估计毕不了业了

这小孩就算作弊也要硬把毕设拖到这个时候,拖延症比我还厉害了
mitu9527
2020-05-21 23:23:39 +08:00
亮点:不能做的太好看了。可惜我是 PHP 不是 Python 。
antpi
2020-05-21 23:28:22 +08:00
联系一下 VX MTg5Mzc4NTU2MTU=
Marsss
2020-05-21 23:32:29 +08:00
@zengxs 是的,时间上有点紧,不过抓紧点,两三天也搞定了。
@mitu9527 现在学校流行 python,其实没啥,我慢慢也用的少了。
Vegetable
2020-05-21 23:32:40 +08:00
答辩不都完事了吗
Marsss
2020-05-21 23:33:32 +08:00
@antpi 你联系一下他把,下面有他微信号。
zengxs
2020-05-21 23:34:08 +08:00
@Vegetable 一般是 6 月答辩,6 月底发毕业证
antpi
2020-05-21 23:35:14 +08:00
@Marsss 原始 wxid 加不了好像
gou7ma7
2020-05-21 23:38:50 +08:00
做界面的话,这个可能会用到 qt,这个我倒是不会,爬虫倒是会。
malusama
2020-05-22 00:13:18 +08:00
非计算机专业为啥毕设是这个...
nasmatic
2020-05-22 00:40:15 +08:00
感觉挺简单,qt 画个界面,三个按钮,再加个 webview,一个按钮爬,一个按钮取数据用 echarts 加工放 webview,一个按钮导出,答辩的时候对着界面直接和老师说:给爷爬!答辩不就过了吗
levelworm
2020-05-22 00:55:25 +08:00
qt 和简单的爬虫倒是会,他有兴趣学不
zxc12300123
2020-05-22 02:03:00 +08:00
还用 QT 么,生成词云(一张图片)就好 /狗头
qfdk
2020-05-22 05:33:29 +08:00
只会 nodejs py 不搞 有兴趣找我 一天搞定哈
wnpllrzodiac
2020-05-22 07:21:52 +08:00
面向监狱编程。。。
Cmdhelp
2020-05-22 08:17:54 +08:00
虽然很简单,但是不想做。。。
ctro15547
2020-05-22 08:42:57 +08:00
1.请先确认好该网站的 robots 以免被坑
2.百度一下 scrapy,有一点点语言基础的,预计一个早上就能搞完脚本
3.界面想快就用易语言,cmd 调用脚本接口完事
EKkoGG
2020-05-22 08:43:27 +08:00
老师要求 Python 吗,感觉这个要求 .NET 做起来更快
AndyZhuAZ
2020-05-22 09:03:18 +08:00
难度确实不大,我觉得展示不一定需要客户端应用程序展示啊,用 jupyter 不就好了
whoosy
2020-05-22 09:10:13 +08:00
@nasmatic 谢谢兄弟 有被笑到

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/674199

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX