spark 大数据离线分析 爬虫存到 csv 有的列是长度不固定的 list 请问应该怎么存到 hive?直接存 list 吗?该怎么分析呢?

2021-04-08 21:50:59 +08:00
 txc106

完全没有头绪 另目前自己定的流程是爬虫-》 hdfs-》通过 scala 预处理后存 hive-》 scala 分析-》 mysql-》可视化 请问这个流程有什么问题吗? 看其他项目处理的数据都没有 list 我是因为那列有的是空有的有三四个数据 然后就直接存的 list 该怎么处理呢?我也没能查到其他人有类似的处理流程。。。

828 次点击
所在节点    Spark
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/769217

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX