请问如何开发一个针对使用中文命名的源码库的代码搜索引擎?

2018-08-20 15:08:51 +08:00
 xuanwu

原址: https://github.com/program-in-chinese/overview/issues/80

类似 searchcode/Sourcegraph, 不同处是针对中文命名的源代码进行索引. 主要目的是促进源码交流和再利用. 暂时想到的相比英文代码搜索引擎的额外问题:

技术方面: 中文分词. 比如在 github 搜索"简繁体互转"就无法找到这个源码, 而搜索"确认简繁体互转"就可以.

非技术: 找到合适的代码库, 并定期更新

做了一点初步调研, 参考这帖, 只找到这个开源的可供参考(还未细看许可证): https://github.com/boyter/searchcode-server 看起来多数此类英文代码搜索引擎项目都已废止. 相信除了本身投入较大之外, 面向人群有限也是个因素(相对一般搜索引擎的用户量, 对编程有兴趣群体应该是个零头). 中文代码总量仍极少, 初期硬件投入会较小.

854 次点击
所在节点    问与答
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/481456

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX