有熟悉算法的朋友吗,问几个算法难题哈!

36 天前
 newlin
今天用 pytorch 训了一个“推文评估专家”,

输入是历史上所有火了的内容,

用户可以输入自己想要发布的内容,输出是火的概率,

发之前先看专家怎么说,会不会因为 NSFW 被处罚。

感悟:AI 真是数据吞金兽,数据标注,数据清洗真累人.

未来:

可以发展演进成,人类喜好偏好打分 Agent.

我发现的新问题(难题):

1. 文本的偏好识别写好的代码,是否可以服用一些模块,迁移泛化到图片、视频、音频、代码的偏好识别?

2. 如何获取高质量的文本、图片、视频、音频数据?高质量的定义标准是什么?

3. 如何应对同一个问题因为时间的迁移带来的不同正确答案?譬如 2022 年之前阿里 CEO 是张勇,2023 年开始换人了.

4. 如何应对空间因素带来的答案变化,譬如提到本市的时候,在上海就是上海,在成都就是成都?

5. 如何应对时间函数,即有些内容符合当下热点,因此符合人类偏好,过了时间信息又不重要了?

6. 有哪些分布式训练和分布式推理的框架和技术可以试用(给几个关键词我查查)?

7. fine-tuning 、LoRA 的技术实现区别是什么?需要的数据量差异是什么?

9. 机器配置不够好的情况下,如何成本可控地做相应的模型训练实验?租哪里的算力更合算?

10. 训练数据有脏数据的情况下(譬如 10%),如何把脏数据遗忘掉,而不用重新训练?
383 次点击
所在节点    机器学习
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1032744

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX