kotlin 源代码数据集

321 天前
 bigtang
很多公司不愿意从 java 转向 kotlin ,原因是你能想到的几乎所有编程问题,bug ,一搜索都会有一堆 java 案例,而 kotlin ,那则少的可怜,因为 kotlin 毕竟是一门新生语言,虽然 java 可以转为 kotlin ,但对 kotlin 新手还是不友好,转换经常会产生一些编译错误,新手一筹莫展。

如果有大量的 kotlin 源代码可参考,这个问题会大有改观。

BigCode 数据集是一个开放的科学合作项目,旨在负责任地训练大语言模型,以应用于编码领域。该数据集包含了来自 Stack Exchange 平台上的问题和答案,包括 StackOverflow 的编程话题下的问题和答案。BigCode 数据集可以用于许多自然语言处理任务,如代码补全、代码摘要、代码搜索等。此外,BigCode 数据集还可以用于研究代码的语义和结构,以及代码的演化和变化。BigCode 项目中包含了 StarCoder 、The Stack 和 SantaCoder 等工件,其中 StarCoder 是用于编码的最先进的语言模型,The Stack 是可用的最大的预训练数据集,包含宽容的代码,而 SantaCoder 是一个参数达到 1.1B 的编码模型。

BigCode 中就有大量的 kotlin 源码,数量是 13G, 375 万个 kt 文件.
下载方法: https://huggingface.co/datasets/bigcode/the-stack/tree/main/data
打开后,点击底部的 Load more files, 直到看见 kotlin, 点击 kotlin
就会看到有 15 个 parquet 文件下载
可以用 Python 对 parquet 文件解压:

import pyarrow.parquet as pq
table = pq.read_table('input.parquet')
table.to_pandas().to_csv('output.csv')

这样你就可以在本地检索 kotlin 源代码了,
在线搜索:源代码搜索网站 www.tanglib.com 提供了本 kotlin 源代码数据集在线全文检索。
1293 次点击
所在节点    Kotlin
2 条回复
TWorldIsNButThis
321 天前
kotlin 编译错误?很少吧,也就是一开始不熟练 class constructor + property 的几个简写比较容易犯错,其他的按提示写就行了,又不是 typescript ,类型系统玩不出花
houshuu
321 天前
倒也没这么困难
java 复制进 intellij 直接就转成 kotlin 了
除非用 ktor 什么的,其他基本看 java 资料也是一样的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/950972

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX