文本分类或者打标签工具推荐

30 天前
 beryl
例子:
1. 公牛集团 2023 年净利润 38.7 亿元,同比增长 21.4%
期望输出:公牛集团,2023 年财报

2. 英伟达收购两家 AI 创企,要让 AI 芯片变得更便宜
期望输出:英伟达,收购/投资

3. Nvidia CEO 黄仁勋亲自向 OpenAI 交付第一台 DGX H200
期望输出:黄仁勋、英伟达、OpenAI 、DGX H200

需求,通过标题进行分类、打标签、实体提取

试用了:chatGPT 等各种大模型平台、传统的实体提取,文章分类,打标签的 NLP API 都没有达到效果

请教下,有没有类似的思路或者能力来实现呢,尽量性价比高的
957 次点击
所在节点    问与答
18 条回复
vivisidea
30 天前
这种 gpt 没道理处理不了吧,你 prompt 怎么写的?
beryl
30 天前
我后面给你的内容都是内容标题,帮我从标题中提取标签或者关键词或者 topic 最多三个
@vivisidea

试过很多写法,结果都差强人意
noahlias
30 天前
我感觉是 prompt 的问题吧 我测试了 gpt3.5/kimi/ chatglm4 感觉都还行 只是可能 prompt 还需要优化下

noahlias
30 天前
换成 gemini-pro-1.5 感觉更好了?

hooych
30 天前
@noahlias 这是什么软件,求推荐
JohnYep
30 天前
JohnYep
30 天前
noahlias
30 天前
beryl
30 天前
@noahlias prompt 可以分享下么
@JohnYep
beryl
30 天前
@JohnYep 刚发现是昨天的代码,秀呀。这么巧合
noahlias
30 天前
@beryl 我写的贼简单 可以用 claude/gpt-4 再优化下 原版我就不写了 用 claude sonnet 优化了下(很 claude

您是一位智能信息提取助手。您的任务是从给定的新闻文本中提取相关信息。

上下文:$input

您应该以 JSON 格式回复,格式如下:

{
'实体': ['实体 1', '实体 2', ...],
'新闻类型': '新闻类型 1',
'新闻标签': ['主题 1', '主题 2', '主题 3']
}

注意事项:

1. 实体应该以列表的形式给出。
2. 您不应添加任何新闻文本中没有提及的信息。
3. 所有信息都应使用中文。
4. 新闻标签应生成三个简洁的主题。
JohnYep
30 天前
beryl
30 天前
@JohnYep 这个方式我有想过,但是分类和标签不可枚举。也正在想办法搞个十几万个标签。 之前想过直接分词去匹配,或者把这十几万个标签作为微调数据。


@noahlias 感谢,学习到了。
zhusimaji
30 天前
这个大模型做拿手,如果是传统的方法就得看 keyword phrase 一些方法 各种监督无监督,以及和图结合的方法
noahlias
30 天前
@noahlias 你是一位智能新闻信息提取助手,任务是从给定的中文新闻文本中精准提取信息。请遵循以下格式输出结果:
{
"实体": ["实体 1", "实体 2", ...],
"新闻类型": "新闻类型",
"新闻主题": ["主题 1", "主题 2", "主题 3"]
}
注意事项:

实体指的是新闻中提及的人物、地点、机构、事件等名词,请以列表形式给出;
新闻类型指新闻的大类,如时政、财经、体育、娱乐等;
新闻主题是对新闻核心内容的三个简洁描述或总结;
输出内容必须来自给定的新闻原文,不可主观添加;
请完全使用中文进行信息提取和输出。 (刚才没让他 refine 这是 refine 之后的🤣 逃
zhusimaji
30 天前
你这上面的几个任务,如果大模型一次搞不定,你可以分子任务解决,理论上一个任务大模型处理更好,复杂任务 有时候处理不怎么好
JohnYep
30 天前
@noahlias @beryl
#11
这个提示词好像还不错,我也试试
beryl
30 天前
@zhusimaji 主要是还要考虑成本这块

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1035918

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX