撸了一个网课题库 API(300W)

2020-06-21 10:55:19 +08:00
 Norths

疫情在家上网课,用过 APP 、公众号、脚本查题,渐渐接触到了网课查题这个世界
逐渐萌生了自己建一个题库的想法,于是开搞
从前端到后端到数据库、文档,基本都是自己一点一点磨出来的。官网的单页偷懒就悄咪咪套了个模板
本以为就是一个查询查询查询的操作,但我还是想得太简单了
第一次面对上百万的数据量,20 秒的查询时间让我直接哭出了声,自学的那点可怜的知识瞬间不够用了啊。
紧急补习了数据库优化..现在采用分词+索引的方式,基本能达到使用要求
别看官网写得挺那啥的,其实也就那么回事儿,才刚刚上路,不是很完善,要走还很长
算是一次因兴趣而生,边学边练的作品吧
现在题量已经有 300 多万了,也在一步步的扩充,目前是通过未命中题目记录后台再收录的方式来补充题目,希望有兴趣或者有更好的办法的可以一起扩充题库
如果可以的话,欢迎各位推介一下,先感谢了~!

如果有什么不好的地方,欢迎巨佬指正!斧正!教育!

附上地址:
官网: https://www.vanswo.net
文档: https://docs.vanswo.net
体验: https://wk.wanshiwu.asia

7401 次点击
所在节点    分享创造
24 条回复
Norths
2020-06-21 11:10:45 +08:00
测试:
1002
rYY785HWsRWOoXSaSAOqo7Ix86a0HrTk
octobersnow
2020-06-21 12:09:37 +08:00
这官网的魔板是啥啊
Higurashi
2020-06-21 12:22:27 +08:00
顶一个
cuikai1
2020-06-21 12:27:57 +08:00
问下 300 多万的题库是怎么弄出来的?
dongisking
2020-06-21 12:59:54 +08:00
niubia
justin2018
2020-06-21 13:05:22 +08:00
![MzOzFZE]( )
guoer
2020-06-21 14:46:10 +08:00
律师函警告,楼主注意版权问题
xm5211
2020-06-21 15:50:18 +08:00
蹲一个网站模板
Telegram
2020-06-21 16:00:47 +08:00
咦,好像不错的样子,哈哈
Littleor
2020-06-21 17:04:18 +08:00
一直很好奇这种网站的图是咋做的
ShallowAi
2020-06-21 22:06:08 +08:00
建议接入 Cloudflare CDN 防止滥用
题库扩充和完善可以接入和二次开发 greasyfork 的各种答题脚本
nc4697
2020-06-21 22:48:19 +08:00
还带刷课的吗。话说这个国内监管如何
ManNotFound
2020-06-22 04:34:19 +08:00
很好的想法。
市面上已经有成熟的纸质作业搜题的产品了,网课搜题有搞头。
查询的优化你应该是做了倒排文件吧,还可以从查询策略上做优化。
这东西再接个 OCR,就完整了。
我是个产品,挺羡慕你们技术有想法自己可以实现的。
lonelymarried
2020-06-22 11:24:34 +08:00
我也在爬题库,300w 是咋爬到的。我买了代理还没爬完。ip 封的太快
Norths
2020-06-22 14:03:30 +08:00
@cuikai1
@lonelymarried
我是机缘巧合之下弄回来了一个有点题量积累的题库,然后没有的再去爬,这样子可能比直接从零开始快捷了一点叭
Norths
2020-06-22 14:08:07 +08:00
@octobersnow
@xm5211
模板是在站长之家翻到的,一直丢着没用,这次用上了
http://sc.chinaz.com/moban/191014007650.htm
改了谷歌的字体库为中科大的,还有一些引用地址,下面联系方式是画的 QQ 微信的 svg
Norths
2020-06-22 14:21:34 +08:00
@guoer
嗯嗯,谢谢提醒,我会注意的
@nc4697
光明正大肯定是不可能的了,只能够是随缘才有得刷一下这样子
@ManNotFound
谢谢大佬的建议,会考虑往这个方向去尝试尝试的!话说这么大的数据量对我来说也是第一次面对,也一直在查各种资料寻找更优的办法。
nc4697
2020-06-22 14:30:35 +08:00
@Norths #17 可以跟函授站合作,不过他们资源也挺多的,只能压价,利润不会太高
bfqymmt
2020-06-22 15:53:44 +08:00
这个模板真好看。
Austin2035
2020-06-23 19:06:55 +08:00
最近只采集了 60W 道题目,也是醉了,不知道哪里有全面的题库可以供采集

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/683437

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX