scrapy 采集百度贴吧入库 mysql 后。入库数据时间是混乱的,有什么办法可以按百度贴吧发贴时间顺序入库不?

2017-04-30 15:14:44 +08:00
 bb2018
scrapy 采集百度贴吧入库 mysql 后。入库数据时间是混乱的,有什么办法可以按百度贴吧发贴时间顺序入库不?

如图:

https://static.oschina.net/uploads/space/2017/0430/125704_3lK4_2628079.png


后面的这一列时间。是我采集的百度贴吧楼主发贴的时间。入库后发现这个好混乱。

如果想把百度贴吧发贴的时间顺序入库。

请问实现这个需要什么思路?
3576 次点击
所在节点    Python
24 条回复
julyclyde
2017-05-01 07:30:52 +08:00
原作的根本问题在于,情感上不愿意接受:sql 数据库本身不提供顺序,顺序必须用一个字段的排序来描述,这个事实
“现在真是什么人都能写爬虫了”
mcwanderer
2017-05-01 09:23:15 +08:00
我猜,楼主是处女座~
msg7086
2017-05-01 12:23:17 +08:00
你对数据的 id 有多执着?
你只是要显示的时候按照时间排序而已,这管 id 什么事?你直接进数据库把整个 id 列给砍了也不影响你的需求啊。
10 楼就是问你到底需求是什么,还在那拼命扯 id 的问题,你到底是要看帖子还是要看 id 啦?
flyingghost
2017-05-02 11:04:39 +08:00
1,id 只唯一标识一条数据,除此之外什么作用都不应该有,包括顺序。改天换成 UUID,还怎么保证有序?
2,数据插入的顺序,不代表 select 出的顺序。要想有序,必须 order by。
3,原帖时间就应该是原帖时间,既不是回帖时间也不是抓取时间。如果不存在,请自己抓出、创建字段,并依此排序。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/358243

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX