首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
宝塔
V2EX  ›  程序员

工作两年的同事不知道逻辑回归是什么,这个正常吗?

  •  
  •   yuikns · 334 天前 · 11266 次点击
    这是一个创建于 334 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,同事是国内本科,国外硕士,在厂里写了两年的 python。今天需要和他对接 feature,我跟他说用一下逻辑回归,他问我什么是逻辑回归。


    那些纠结于逻辑回归中文翻译的,自己去谷歌和百度搜索"逻辑回归",看看前五个链接是不是指的 Logistic Regression。


    我觉得知道损失函数而不知道“逻辑回归”的人,是可以暴露一些事实的,例如不怎么看过英文资料。

    第 1 条附言  ·  333 天前
    那个... 感觉好像要被乱炮决了, 求生欲强烈的楼主感觉还是再解释一下吧 /顶锅盖跑

    这个帖子是看到隔壁 https://www.v2ex.com/t/518791 中各种高论,随手逗比一下来着。

    LR 是一种比较经典的线性回归模型,在上个世纪末就讨论得很详细了。现在各种教材上,一般在很靠前的地方就能找到。现在的各种论文在可能的情况下,基本也会用它跑个 baseline。要是连它都跑不过,那么不用瞎胡闹去发表了。hmm,当然,要是毕不了业,不要脸的也可以来个特征选取啊,构造数据集啊什么的,那另说。总之,这在一大类领域中,是非常基础的知识。

    这个模型有个神一样的翻译“逻辑回归”。我不知道谁弄出这个 logistic => 逻辑这个逻辑的。总之现在大部分中文都是这个名字,包括李航的统计学习方法那本书。此外,这个领域还有很多坑爹的各种翻译变种,随便再举例个,precision vs. accuracy,他们的意义完全不一样,但中文翻译还是有很多版本,反正我是必须先看看描述才能确信人家在说啥。

    总之,通常我们在交流的时候,讲到这些术语,一般是用英文再确认一下。因为在恒河沙数的教材下,中文翻译的变种往往各种各样。尤其是 endianness, lr, accuracy 这些概念。或许换个领域需要一些背景说明,但同在一个环境下,首先考虑的恐怕应该是是否是命名沟通问题,而非实体问题。

    动不动就别人基础差,本菜已然惊呆。
    第 2 条附言  ·  333 天前
    不好意思,自己给自己打脸下...

    航书里面的版本是"逻辑斯谛回归"。打开 77 页,上面逻辑斯蒂了几百遍,每一遍都在指着我骂教你特么不先确认下。
    第 3 条附言  ·  333 天前

    就好像手头有个榔头,看足球都是钉子的形状。看到原帖整栋楼各种高论,突然想到这么个奇怪的例子,于是就引用一下。

    需要承认的是,调笑者有之,批判什么还谈不上。更不用说是针对某个特定的人。

    但是,我想说的沟通的事情是严肃的。要是同为本科生,大家学到的都是差不多,那么容易,交集那么多,随便用啥都行。但是辗转流浪各地后,每个人的背景未必一致,要是专注于交流,那么还是以沟通本身为要,不要随便“归纳”评价别人比较好。

    我理解,php 似乎是处理比较高层的事务,各种底层协议应该是用 C 实现接口吧?那么平时不怎么接触,在各种不同上下文下,即便人家一是没反应过来,也是情有可原吧?遥想十几二十年前,我也是个 GV BASIC 小能手,各种小工具靠着那个解释器随手就来,比黄金英雄坛说还好用好吧。那才是我的基础。然而现在不再通读下 API 估计什么都写不出来了。

    如果谁感到被冒犯。深感抱歉,虽然并非本意。

    122 回复  |  直到 2018-12-22 14:46:30 +08:00
    1  2  
        101
    yuikns   332 天前
    @FrankHB knn 那几个例子,逐字翻译的确没啥问题,意思也没啥不清楚的,但是盖住我熟悉的结果然后去翻译,感觉自己可能还是要想半天。

    字节序那个感觉还是要语境吧。我当时就在往序列那边想了两秒,然后网页点开,前两个回复剧透,不然我可能要先数据库然后算法全过一遍才能猜到。


    可能是由于我中文和英文都比较差的缘故吧。一般情况下,我对术语的语义一点都不敏感,无论中文还是英文。对我而言,感觉最重要的还是唯一性。多个名词指代一个实体,或者一个名词可能会指向多个实体都让人很困扰。所以 “逻辑回归”这个典型的捣乱名词我知道了大概有六年,也讨厌了差不多相等的时间。

    关于 endianness 这个用典的问题,只要不要突然有个不同的概念重名,我倒觉得无所谓。要是突然有个什么什么命名标准协会能够定一个足够权威都标准,规定这个概念叫某个字符串 -- 哪怕是韩语的字符串,只要是符合唯一标准 -- 我都乐见之。
    而目前,感觉 endianness 是维基被归一到的位置,而且搜索 endianness 可以关联到的文档应该足够覆盖绝大多数相关内容。哪怕是 byte order class,在注释里面也会提上一句 endianness。所以暂且用一下。


    用典被打脸似乎是很常见的事情。比如夸克,传说当年默里·盖尔曼用“向麥克老大三呼夸克!”来命名夸克粒子,因为它还暗含“三种夸克”的意义。然而现在有六味( Flavour ) 36 种夸克。那只海鸥得来回飞很多轮才能喊完....
    私以为,当它变成术语后,其后的发展和原本意思的关系就剩下个轶事了。


    感谢浪费这么多时间和我介绍这些,又仔细回复了我那么多不经之谈。
        102
    zhengdutech   332 天前
    我工作 6 年多了 公司都开了 从来没听过
        103
    wakan190   332 天前 via Android
    大家宽容一点难道不好吗?
        104
    oma1989   332 天前
    我就想问 , 一公顷等于多少平方米?一打等于多少个?一提等于多少个??? 有能直接回答上来的吗???
        105
    occam88   332 天前
    @oma1989

    我记得是 666.66㎡,一打是 12 个,一提忘记了
        106
    oma1989   332 天前
    @occam88 哈哈哈哈,忘了是正常的.....我也不记得....
    不过按楼主的意识应该他都会知道,毕竟这是九年义务教育里的.... @yuikns
        107
    yuikns   332 天前
    @oma1989 我知道公顷是 100*100m 的。我不知道提。

    很高兴看到这么多人也觉得这些表述是有攻击性的。
        108
    l0o0   332 天前
    @occam88 一公顷是 10000 平方米,666 那个是一亩。为什么你的 id 和楼上那么像
        109
    oma1989   332 天前
    @l0o0 哈哈哈哈,我说那是我的小号你信吗? 我还有呢,不信,你往后看...
        110
    way2create   332 天前
    我会说我连中学学的不少东西都忘了吗,很简单的啊但我就是忘了
        111
    raycool   332 天前
    LR 是一种比较经典的线性回归模型
    这是不是复制得 linear regression 说明。
        112
    quinoa42   332 天前
    ……我就想问问 logistic 是怎么翻译成逻辑的
        113
    yuikns   332 天前 via iPad
    @raycool 确切说是属于 generalized linear model,

    手打的就简单说明了下性质没想展开

    https://www.quora.com/Why-is-logistic-regression-considered-a-linear-model
        114
    yuikns   332 天前 via iPad
    @quinoa42 音译的,然后乱传多了连维基中文主条目都变这个了。
        115
    realpg   332 天前
    码农十年+ 手底下最多管过 800 码农,从来没听过
        116
    realpg   332 天前
    @oma1989 #104
    一公顷一万平,一打 12 个,一提不知道 不是记不清 是从来没听过
        117
    atcdef   332 天前
    我听说过逻辑回归这个词,但是不知道逻辑回归是啥,线性回归啥的,倒是信手拈来
        118
    Davic1   332 天前
    @yuikns 是这个道理, 所以这个问题本身就没什么营养. 别人知道就知道呗, 不知道就不知道呗. 没什么好讨论的.
        119
    olindk   332 天前
    哈哈,可以发我写的科普文章《用高中数学理解 AI “深度学习”的基本原理》给他看看啊!里面有对线性回归和梯度下降的(自认为)生动讲解。

    https://mp.weixin.qq.com/s/lCL-QTitZyB7rade6NkDIA
        120
    lepig   332 天前
    天天发这些垃圾帖子
        121
    FrankHB   331 天前
    敏感性这个因人而异。不过就已经被接受的术语来看,大多不至于难以辨别。被吐槽最多的还是引起歧义和误导这样实际上容易直接引起交流障碍的例子,包括你所说的重名——这里一个总的原则是实用性:发明术语首先是为了沟通和交流的需要,而不是为了显得表面上的若即若离的构词巧妙和其它什么有的没的装×理由。(反面教材:“堆栈”“鲁棒性”之类。)
    另一个观点:如果术语的选用各有优劣而无法决断或者避免冲突而退让(比如 memory 为了不和 storage 冲突而被迫翻译成“内存”,尽管原文经常压根就可能没“内”——“在线”的意思)倒有商榷的余地,但明知有一个各种意义上都明显优于其它的情形还刻意要用不合适的替代,那就有问题了。历史习惯在合理性上占一定地位,但同样地基于实用性原则,我的判断是不能以辞害意。因此就 endianness 这样的情况,我虽然可以接受两者,但使用倾向是很明确的。
    往大了说还有两点:
    1.按照目的优先顺序排序这是个普遍的工程选型的策略,而不只是关于翻译的问题。这里的原则我能很容易地一贯地保持,而要在个别翻译问题上搞特例就太麻烦了。
    2.应理解自然语言本身受到语言习惯的影响的现象,但也不是说就该从俗从众。这里方法论和上面的一致,首先还是看理解:越无知的,越无权判定内涵——而不是看“历史”“习惯”,“谎话说多了就是真理”。当然有个现实是……歪曲成语和念白字的太多了,搞得语委都怂了……如果无法达成一致,原则性的下场就是这样的说法直接剔除出语料库,而不是妥协。而小圈子的领域特定术语就可以有更激进的策略:对原意的解释权从来就不该在 dssq 的大众上——否则效用就极其可疑:发明这样的术语意义何在?要是向以讹传讹退让,真正有需求的涉众对语言使用的实用性何以体现,靠迫真制造新词来填坑?(例:“打 call ”。)
        122
    FrankHB   331 天前
    @oma1989 一公顷=10000㎡,一打=1dozen=12,一提是指 6 听易拉罐吧……虽然有愣了一会而是不是 1twip。
    @occam88 666.66㎡那个是一亩……因为市制单位不是十进制一路货反而印象深刻。(类似地,“一丈”)。
    1  2  
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   905 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 23ms · UTC 21:47 · PVG 05:47 · LAX 13:47 · JFK 16:47
    ♥ Do have faith in what you're doing.