ecwu

V2EX 第 233000 号会员，加入于 2017-05-29 10:15:48 +08:00

今日活跃度排名 20743

ecwuuuuu.com Geo

Hong Kong

ecwu

ecwu 提问技术话题好玩工作信息交易信息城市相关

根据 ecwu 的设置，主题列表只有在你登录之后才可查看

二手交易相关的信息，包括已关闭的交易，不会被隐藏

ecwu 最近回复了

165 天前

回复了 lijianmin321 创建的主题 › 分享创造 › 备忘录+翻译+文件搜索+ChatGPT=Airy，给 V 站老哥前 1000 个用户都送终身会员

mark 一下，支持！

2023-04-07 14:53:38 +08:00

回复了 cydian 创建的主题 › 程序员 › [盖楼🎁送 15 天 20 份] 力扣 Leetcode Plus 会员兑换码（1~365 天）

做个分母

2022-11-03 10:58:25 +08:00

回复了 nanshaobit 创建的主题 › 程序员 › 有好用的内网搭建的 wiki 或笔记系统吗？

推荐 [outline]( https://github.com/outline/outline)，就是必须要配置一个 SSO, OIDC, 或 SAML 的身份认证，目前不支持账号密码登录。

2022-09-11 13:17:22 +08:00

回复了 EliteOtaku 创建的主题 › NAS › 请问有使用群晖内置 DDNS 的朋友吗？现在有哪些域名不在防火墙名单里？

在使用 synology.me

2022-07-27 07:32:13 +08:00

回复了 Richard14 创建的主题 › 程序员 › 深度学习中位置编码的本质是不是就是一层 nn.Parameter()而已？

@Richard14 不同预训练任务是替换不同的输出层，这里你可以参考下原论文。预训练任务的顺序会导致模型效果的差异。

使用 HuggingFace 来训练自己的模型可以参考 https://stackoverflow.com/questions/65646925/how-to-train-bert-from-scratch-on-a-new-domain-for-both-mlm-and-nsp

2022-07-27 00:59:17 +08:00

回复了 Richard14 创建的主题 › 程序员 › 深度学习中位置编码的本质是不是就是一层 nn.Parameter()而已？

@Richard14 你可以理解 BERT 给出的 embedding 是高级版 w2v （严谨点是叫 contextual word embedding ，也就是同一个词，在不同的上下文里，embedding 是不同的，不同于 w2v 或者 GloVe 学习完就是固定的）

取平均来获得输入的全局的表示确实会损失隐式信息，但是 CLS 位置 embedding 是通过 self-attention 获得的，本质上就是对 token embedding 的加权平均。所以用 CLS 还是取平均，需要看具体的任务是干什么。

如果你是对输入句子做分类或输出浮点数，你可以考虑直接拿 CLS 位置的 embedding 给到 MLP 。如果是继续生成内容，可以去了解下 Seq2seq 架构。

最后你提到的 RNN 或者 MLP + 位置编码的想法。我个人认为 RNN 可以尝试。而 MLP 方案，你的输入会过于巨大（ 768 * token 长度），不太可行。

2022-07-26 11:41:45 +08:00

回复了 Richard14 创建的主题 › 程序员 › 深度学习中位置编码的本质是不是就是一层 nn.Parameter()而已？

- 位置编码在输入时加在了词嵌入中，模型里的 Transformer Block 都有残差链接，这样位置的信息也可以传递到后面的层，被后面的层“把握”。

- 输出的“整体信息”和每个输入 token 的 embedding （ embedding 也就是你说的特征提取后的信息）都在一个输出层上。一般认为插入在句子输入最前面的 [CLS] token 对应的 embedding 包含了后面输入句子的全部信息，这里的原因是在 BERT 的 NSP 预训练任务时，会拿 [CLS] 位置的 embedding 来预测输入的两句话的先后关系，这样 Self-Attention 的过程就会把后面的句子的信息集中到 [CLS] 的位置的 embedding 中。所以加入的 CLS token 并不是说人为加入了一个全局信息。

- 如果你要把 BERT 用在自己的回归任务上，可以只将预训练的 BERT 当作一个获取词嵌入的工具。也就是在 BERT layer 的输出给到回归任务的输入。但具体用 BERT layer 的全局 embedding （[CLS] 位置输出），还是取输入 token embedding 的平均，都可以尝试。

2022-07-22 10:07:08 +08:00

回复了 tenstone 创建的主题 › 程序员 › 调研贴：你用什么笔记软件？

Obsidian

2022-04-07 13:34:28 +08:00

回复了 kuls 创建的主题 › 程序员 › 各位大佬有没有推荐做笔记软件？

Obsidian + Git / OneDrive

2021-12-28 10:12:23 +08:00

回复了 duanxianze 创建的主题 › 问与答 › 求助，买的二手房没有预埋网线，光纤只到客厅，如何改造成本低效果好？

家里也是没有布线，但是前段时间自己折腾了隐形光纤，就是自己布置时比较费时费力。但收发机、光纤接好了就能直接使用，效果挺好。

» ecwu 创建的更多回复