Spark 上如何构建 M*N 矩阵? 现有的例子都是直接传入的一个矩阵的 txt 文件

2016-05-17 10:38:10 +08:00
 anonymoustian

我现在有一个 M * N 矩阵,但是在 Spark 里面是用 JavaPairRDD<String, String>一行一行来存储的。 其中 tuple_1 代表 用户, tuple_2 代表 食物, 也就是说 形成了一种 用户与食物的对应关系。 我要构建一个矩阵,行代表用户,列代表食物,如果有这样一条 RDD 记录的话, 构建 的 M * N 矩阵 那个值为 1 , 否则为 0

现有的例子我查到的 都是直接 读入一个 txt 文件, 但是 并没有讲如何构建这个矩阵?

而且我的矩阵行和列是有意义的,是要映射出去的,现有的例子也没有。 就是说如果对这个矩阵进行运算的话,希望 第 i 行 映射到 小明, 第 j 列 映射到 薯条 这样子;

另外这个 RDD 的条目大概有一千万条, 如何写程序构建这个矩阵并且可以进行相关的运算? 大家有没有什么好的例子?

谢谢!

2605 次点击
所在节点    Hadoop
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/279152

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX