假如有5000篇健康类的文章标题。给定任意一个文章标题,可以判断他属不属于健康类的么。

2013-11-01 09:55:40 +08:00
 wudikua
我看了下贝叶斯分类器和ID3感觉都解决不了。求内行指引下方向。
3169 次点击
所在节点    程序员
12 条回复
chlx
2013-11-01 10:02:03 +08:00
可行但是准确率达不到100%.分类器不是关键,这种短文本的分类任务中,特征更重要。
wizardoz
2013-11-01 11:28:09 +08:00
这个是数学建模题吧,这种题不可能100%准确的。考量标准是你的模型分类的正确率。
brikhoff
2013-11-01 14:37:47 +08:00
500块我给你分,我人工分^_^
zzNucker
2013-11-01 14:57:13 +08:00
标题么? 那用统计方法是有点难
solos
2013-11-01 15:39:31 +08:00
试下余弦定理计算相似性
wudikua
2013-11-01 16:51:20 +08:00
@solos 不行啊,那个是两个东西比相似,这个不适用。
miaoever
2013-11-01 16:55:12 +08:00
一般用贝叶斯分类起吧。不过,标题一般比较短,能够提取的特征不多,再加上只有 500 条已知类别的,估计效果不会太好。
wudikua
2013-11-01 17:05:26 +08:00
@miaoever 贝叶斯分类器的话 首先好像你需要有一个是健康类文章的集合和不是健康类文章的集合才行吧。
chlx
2013-11-01 17:29:21 +08:00
@wudikua 是,要手工标注新闻作为训练集
solos
2013-11-01 18:14:07 +08:00
efi
2013-11-02 06:27:55 +08:00
只有正样本,没有负样本,不可能做分类。可以做回归分析,比相似性,设阈值取类,正确率无保证。
holy_sin
2013-11-04 09:29:55 +08:00
svm ?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/87651

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX