V2EX  ›  英汉词典

Tokenize

释义 Definition

tokenize(动词):把文本或数据切分成“词元/标记(tokens)”的过程,常用于自然语言处理、搜索、编译器等领域。(也可指“代币化/将资产转为数字代币”,但此处以常见的语言与计算含义为主。)

发音 Pronunciation

/ˈtoʊkənaɪz/

例句 Examples

The program tokenizes each sentence into words.
程序把每个句子切分成一个个单词(词元)。

Before training the model, we need to tokenize the text and remove punctuation carefully.
在训练模型之前,我们需要先对文本进行词元切分,并仔细去除标点符号。

词源 Etymology

来自 token(“标记、符号、代币”)+ 动词后缀 -ize(“使……化/使成为……”),字面意思是“使变成标记”。在计算语言学中引申为“把连续的文本分解为可处理的标记单位”。

相关词 Related Words

文学作品 Literary Works

在传统文学作品中较少出现;该词更常见于技术写作与教材中,例如:

  • Speech and Language Processing(Daniel Jurafsky & James H. Martin)中讨论“tokenize/tokenization”等概念
  • Natural Language Processing with Python(Steven Bird, Ewan Klein, Edward Loper)中频繁使用“tokenize”作为示例与术语
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   4433 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 21ms · UTC 07:27 · PVG 15:27 · LAX 23:27 · JFK 02:27
♥ Do have faith in what you're doing.