如何固化大型的 RDF?(GB 级的 Turtle)

2019-03-14 18:55:27 +08:00
 lusuon

最近被老师交了个任务:向数据库导入交大的学术知识图谱Acemap,此前考虑过以下的方法导入:

  1. neo4j (配合neosemantic插件,但 neo4j 在千万级结点后插入、查询等操作极为缓慢,基本不可用)

  2. jena TDB2 (当前正在尝试,但 tdb2loader 的导入性能也不容乐观,7 千万结点后可能因为本地测试机内存有限,速度也慢下来了)

目前我的思路是:将数据分为较小的块( chunk ),再分为每个 5 千万条三元组的 Turtle 分批进行导入。但使用 Github 上的相关 repo:rdfsplit 不能做出理想的效果。

而且对数据进行实验操作的平台比较羸弱:本地测试机的 RAM 仅 8G,服务器 RAM 16G,可能也因此制约了导入的效率。

作为语义网 /知识图谱领域的门外汉,网络上语义网 / 构建大型知识图谱相关的内容较少,Google 一番后仍得不到较好的答案。在此向 V2EX 里的各位请教以下问题:

1.如何在单机环境下,将大型 RDF 文件固化进数据库?( GB 级,最大近 40G )

2.同时,有哪种处理 RDF 工具(目前想要对 RDF 进行分割)值得一用?

1091 次点击
所在节点    问与答
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/544683

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX