关于RSS阅读器的数据库的设计

最近在想RSS阅读器(web版，有用户，像google reader)的实现，有几个问题比较困惑，希望大家能帮忙解答一下：

1. 根据订阅的xml解析出文章以后是存到数据库中吗，未读和已读状态是更新数据库实现的吗？

2. 如果1成立，那么已读以后就要删掉吗？如果删掉并且怎么知道下次来的文章已经读过了，如果不删掉，那么数据量就会猛张，怎么解？

3. 用户数量到一定规模以后（比如google reader或鲜果阅读器）频繁的更新数据库怎么突破瓶颈，有必要用NoSQL吗？如果用关系型数据库能hold住吗？有啥方案？

4. 来自不同订阅的内容按日期排序问题，怎么实现？直接在库里desc？

先问这些吧，因为对rss还不是很了解，如果能有热心人整体描述一下工作原理就更好了。

先谢过！！！

horsley

2013-09-06 17:37:17 +08:00

1 不然呢
2 暴涨很正常啊，时间久了的dump出来放在冷库呗
3 我觉得痛点是抓取，现有有不少开源的方案的，你应该先看看
4 你是不了解rss还是不了解数据库……

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/81570

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.