首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kuokyong
V2EX  ›  程序员

为做个程序员英语字典,我处理了 StackOverflow 和 HackerNews10 年 5 千万条数据

  •  
  •   kuokyong · 39 天前 · 2515 次点击
    这是一个创建于 39 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有点标题党,不过都说都真实的。英语技能对开发员人员至关重要。所有人都不喜欢背单词,但更惨的是背住的单词发现没怎么用,又慢慢地忘记了。本来计划给自己做个开发人员常用单词表,感觉可能对其它人也有用,所以就发布开源出来。单词解释部分还没完成,后面会逐渐添加。

    单词列表托管在 Github 上,一共将近 3000 个。

    https://github.com/kkyon/Simple-IT-English

    单词主要来自:StackOverflow 和 HackerNews.

    Source|Newest Post|Oldest Post|Row Count|Size --------|--------------|---------------|------------|---- HackerNews comments|2015-10-13 08:44:02 UTC|2006-10-09 19:51:01 UTC|8399417|3.41 GB HackerNews stories|2015-10-13 08:44:34 UTC|2006-10-09 18:21:51 UTC|1959809|402.71 MB StackOverflow answers|2019-09-01 05:22:21.463 UTC|2008-08-01 13:16:49.127 UTC|27665009|22.27 GB StackOverflow questions|2019-09-01 05:23:41.743 UTC|2008-08-03 21:38:52.623 UTC|18154493|28.13 GB

    29 回复  |  直到 2019-12-13 13:53:52 +08:00
    exhades
        1
    exhades   39 天前 via Android
    感谢分享
    resist
        2
    resist   39 天前
    感谢,太懒了我,有注释就更好了,手动狗头
    kuokyong
        3
    kuokyong   39 天前
    @resist 后面会添加解释和例子
    secondwtq
        4
    secondwtq   39 天前
    @kuokyong 嗯,能把单词出现的句子加上会更好
    不过这个总觉得很难做 … 一是数据量很大,二是社区不比媒体,很多句子都是网络语言,其实不适合作为例句
    kuokyong
        5
    kuokyong   39 天前
    @secondwtq 是有点难度,SO 数据量有点大,还有筛选出来句子,需要找个算法排优先级。后面会找时间尝试一下。
    SquirrelMAN
        6
    SquirrelMAN   39 天前
    很有价值!
    jdhao
        7
    jdhao   39 天前 via Android
    f1ren2es
        8
    f1ren2es   39 天前
    支持~
    ddzzhen
        9
    ddzzhen   39 天前 via Android
    赞,英语四级卡线路过
    cedoo22
        10
    cedoo22   39 天前
    赞👍
    hannhuan
        11
    hannhuan   39 天前   ♥ 3
    太好了,第一个单词不是 Abandon。
    zhoudaiyu
        12
    zhoudaiyu   39 天前
    第一个 aaron 就不认识 doge
    ClericPy
        13
    ClericPy   39 天前
    不错, 以前想过这些语料可以做什么, 你开了个好头, 也给国外这些主动开源自家数据的站点点赞, 比自己抓省太多时间了, 也避免服务器压力太大

    除了列表... 能有其他功能不

    1. 词典功能
    2. 按热度排序
    3. 按逆文本频率+热度排序
    4. 常错词
    5. 词向量找近义词
    6. 生僻词
    7. 自造词
    8. 共现词
    9. 长尾关键词
    10. 热点趋势图? 关键词热度变化曲线
    11. 词云?
    12. 我好无聊
    secondwtq
        14
    secondwtq   39 天前
    @zhoudaiyu aaron 是人名吧 ... 知名人物如 Aaron Swartz
    嘛这也是 ... xref 都出来了,还有 Adobe 公司应该是得名于一条叫 Adobe 的河,我查了下 adobe 本身好像也是单词但是估计这个语料里的 adobe 指的是 adobe 公司 ... 还有 jekyll 啥的
    不过这种词总体不多,估计楼主要把频率更少的词也放进去就不好处理了
    xiangjian
        15
    xiangjian   39 天前
    0726
        16
    0726   39 天前 via iPhone
    牛皮哈
    KentY
        17
    KentY   39 天前   ♥ 1
    readme 里的英语问题挺多的.
    如果得空了改进一下.
    wwb721
        18
    wwb721   38 天前
    太棒了,之前做过把 typescript lib 下的 zh-cn 的 diagnostic messages 中的单词切割出来去重,也能学到好多东西。
    whisperer
        19
    whisperer   38 天前
    如果能跟 @lijy91 的「一路背单词」合作一下就好了,/t/608958
    做成一个单词本方便学习
    kuokyong
        20
    kuokyong   38 天前
    @whisperer 太棒了。 我试一下联系 @lijy91
    bofei
        21
    bofei   38 天前
    怎么没有中文啊
    cloudopt
        22
    cloudopt   38 天前
    欢迎直接引用 Cloudopt 词典。如 https://s.cloudopt.net/search?q=aggregate&time_range=&language=zh-CN&category=dict
    ,方便大家点击查找。词典功能是没有任何广告的,我们也不靠这个功能盈利。
    kuokyong
        23
    kuokyong   38 天前
    @bofei 还在补充。
    vjnjc
        24
    vjnjc   38 天前
    哈哈哈这个思路不错,喜欢
    vjnjc
        25
    vjnjc   38 天前
    要是能按照频次从高到低降序排就更好了,我只背前 500 个~
    RSDTE
        26
    RSDTE   38 天前
    我只背前 500 个 +1
    lijy91
        27
    lijy91   38 天前
    @kuokyong
    @whisperer
    我来了
    la2la
        28
    la2la   38 天前
    收藏了 不看系列
    kuokyong
        29
    kuokyong   36 天前
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1351 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 26ms · UTC 17:55 · PVG 01:55 · LAX 09:55 · JFK 12:55
    ♥ Do have faith in what you're doing.