请问除了爬虫,哪里可以获取到这么详细的古诗词数据库?

280 天前
 Xheldon

背景:

个人需求,自己开车或者干家务的时候脑子放空,喜欢无意识的顺嘴背诵一些古诗词,考虑到别人可能也有类似需求,所以想想做一个关于诗词的 app 。

调研:

于是想找个数据库,但是 github 提供的数据都不详细,如只有 名字、朝代、内容等,如:

而我还需要显示作者的生辰忌日、诗词鉴赏、简介、作者简介等,找了一圈,发现这个网站的数据很详细:

http://lib.xcz.im/library

里面有诗词鉴赏、翻译、出版社出的书作者对该首诗词的评价、诗词介绍、作者出生年月、作者简介、注释等。

求助:

所以我先联系了对方问考虑出售数据库不,但是对方没回复,所以好奇他的数据库是从哪儿来的?

实在不行再考虑爬虫,毕竟不礼貌 =_=

另外发现一个似乎是出售爬虫数据库的网站:数据超市 不知道靠谱不,花钱能搞定的事情我也懒得自己花时间写爬虫了。

1719 次点击
所在节点    问与答
16 条回复
liujavamail
280 天前
基本上都是从古诗文网爬的吧, 只是现在不怎么好爬

http://lib.xcz.im/library 这个看起来是西窗烛的,做了十多年了, 古诗词 app 排行比较靠前,可能是爬数据加自己维护的数据吧
0o0O0o0O0o
280 天前
AppJun
280 天前
诗词类别,只靠这些网站来搜集靠谱的资料是很难的事情。

毕竟互联网上的数据也不是无根之木,凭空出现的。

目前互联网上包括诗词在内的古籍内容,一般来说会遇到以下几个问题:

1. 文字繁简/异体字不太讲究。

2. 版本不讲究,你不知道这个版本的诗是从哪本来的。

3. 诗词鉴赏部分版权可疑,文本质量良莠不齐。

4. 有大量讹误,正确性没有得到重视和背书。

如果要正儿八经做,其实主要方向就是根据一些已有的受到比较好评价有出版社愿意背书的优秀书籍作为蓝图,然后研究怎么合法的电子化。这里是非常耗费心力金钱的步骤。

对制作者的相关内容的造诣也要求很高。毕竟有些数据库号称 30 W 诗词,虽然正确性很可疑。

然后搞定了这一切,你会发现变现还很难,因为已经有大量劣质的免费内容充斥市场了。

除非有什么大学或者科研机构公布公开靠谱的数据库。否则个人建议远离这个赛道。
charmToby
280 天前
https://github.com/chinese-poetry/chinese-poetry

这个还不全吗?我只是搜了一下。
WashFreshFresh
280 天前
链接点击去耳目一新 一直以为小类型的网站可能就粗制滥造了
rimworld
280 天前
爬一部分,买一部分,再找牛马实习生去修正,录入缺失的。
Xheldon
280 天前
@0o0O0o0O0o 对,快十年前作者做的这个,然后有商业化收益之后,他把所有的代码都取消公开了(或者删了)
Xheldon
280 天前
@charmToby github 上诗词数量可能比较多,但是诗词本身的信息较少,只有标题、名字、作者,还希望有 鉴赏、评论、注释、作者信息等内容
Xheldon
280 天前
@AppJun 你说的对,不过我是没想做这么大,这么权威,我是想先做中小学诗词+语音朗诵,自己用,也给我侄子用,而且因为大家都学过,好勘误;其他的诗词可以作为每日推荐,注明出处,如果用户感兴趣可以自己去研究。
Xheldon
280 天前
@WashFreshFresh 哈哈,确实,西窗烛这个牌子维护十年了,当初作者也是从兴趣入手的,我感觉我也可以🤣
nekoneko
280 天前
@Xheldon #8

鉴赏, 评论, 注释 这些只有少部分诗词会有
kalman03
280 天前
@Xheldon 我有比较全的。
Xheldon
280 天前
@kalman03 怎么说,开个价吧,给个数据库示例看看先😏
Xheldon
280 天前
@nekoneko 确实,而且我看西窗烛把诗词相关的出版书籍对该诗词的评价都爬下来了😂
cin
280 天前
Xheldon
279 天前
@cin 感谢大佬!!!这就是我想要的!!! v 站应该有个感谢收款二维码功能🤣

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/962030

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX