ecwu

ecwu

V2EX 第 233000 号会员,加入于 2017-05-29 10:15:48 +08:00
今日活跃度排名 18153
根据 ecwu 的设置,主题列表只有在你登录之后才可查看
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
ecwu 最近回复了
推荐 [outline]( https://github.com/outline/outline),就是必须要配置一个 SSO, OIDC, 或 SAML 的身份认证,目前不支持账号密码登录。
在使用 synology.me
@Richard14 不同预训练任务是替换不同的输出层,这里你可以参考下原论文。预训练任务的顺序会导致模型效果的差异。

使用 HuggingFace 来训练自己的模型可以参考 https://stackoverflow.com/questions/65646925/how-to-train-bert-from-scratch-on-a-new-domain-for-both-mlm-and-nsp
@Richard14 你可以理解 BERT 给出的 embedding 是高级版 w2v (严谨点是叫 contextual word embedding ,也就是同一个词,在不同的上下文里,embedding 是不同的,不同于 w2v 或者 GloVe 学习完就是固定的)

取平均来获得输入的全局的表示确实会损失隐式信息,但是 CLS 位置 embedding 是通过 self-attention 获得的,本质上就是对 token embedding 的加权平均。所以用 CLS 还是取平均,需要看具体的任务是干什么。

如果你是对输入句子做分类或输出浮点数,你可以考虑直接拿 CLS 位置的 embedding 给到 MLP 。如果是继续生成内容,可以去了解下 Seq2seq 架构。

最后你提到的 RNN 或者 MLP + 位置编码的想法。我个人认为 RNN 可以尝试。而 MLP 方案,你的输入会过于巨大( 768 * token 长度),不太可行。
- 位置编码在输入时加在了词嵌入中,模型里的 Transformer Block 都有残差链接,这样位置的信息也可以传递到后面的层,被后面的层“把握”。

- 输出的“整体信息”和每个输入 token 的 embedding ( embedding 也就是你说的特征提取后的信息)都在一个输出层上。一般认为插入在句子输入最前面的 [CLS] token 对应的 embedding 包含了后面输入句子的全部信息,这里的原因是在 BERT 的 NSP 预训练任务时,会拿 [CLS] 位置的 embedding 来预测输入的两句话的先后关系,这样 Self-Attention 的过程就会把后面的句子的信息集中到 [CLS] 的位置的 embedding 中。所以加入的 CLS token 并不是说人为加入了一个全局信息。

- 如果你要把 BERT 用在自己的回归任务上,可以只将预训练的 BERT 当作一个获取词嵌入的工具。也就是在 BERT layer 的输出给到回归任务的输入。但具体用 BERT layer 的全局 embedding ([CLS] 位置输出),还是取输入 token embedding 的平均,都可以尝试。
192 天前
回复了 tenstone 创建的主题 程序员 调研贴:你用什么笔记软件?
Obsidian
298 天前
回复了 kuls 创建的主题 程序员 各位大佬有没有推荐做笔记软件?
Obsidian + Git / OneDrive
家里也是没有布线,但是前段时间自己折腾了隐形光纤,就是自己布置时比较费时费力。但收发机、光纤接好了就能直接使用,效果挺好。
2021-12-01 11:11:46 +08:00
回复了 danny106 创建的主题 Apple MacbookPro 16 寸屏幕坏了,哪位大侠知道修或换的价格是怎样的
20 年初的时候去 Apple Store 换过,花了 5600+
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   实用小工具   ·   3322 人在线   最高记录 5497   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 08:30 · PVG 16:30 · LAX 00:30 · JFK 03:30
Developed with CodeLauncher
♥ Do have faith in what you're doing.