首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
宝塔
V2EX  ›  问与答

各位 大佬们 关于机器学习 数据集中特征少

  •  1
     
  •   Liu6 · 39 天前 · 808 次点击
    这是一个创建于 39 天前的主题,其中的信息可能已经有所发展或是发生改变。
    数据集中 只有一列 id 和 comment 然后 comment 全是中文 这个怎么进行处理??? 加特征吗 ? 那应该加什么特征呢???? 第一次接触文本数据集
    25 回复  |  直到 2019-10-10 16:57:19 +08:00
        1
    Liu6   39 天前
    我是萌新 !!! 求各位大佬 解答!!!
        2
    Liu6   39 天前
    QAQ 么大佬解答吗? QAQ
        3
    SeaRecluse   39 天前   ♥ 1
    并没有看出哪里特征少,也不知道你是要做 NLP 的什么任务。情感分析?分类?自动回复?
        4
    Liu6   39 天前
    这里好像不能发图片 就是一列 iD   一列 评论  类似 商店评论  然后 在预测
        5
    e3kiq0   39 天前
    是不是应该有个具体点的预测目标?
        6
    vsitebon   39 天前
    发图片的方法: https://www.v2ex.com/t/408727?p=2
        7
    Liu6   39 天前
    @e3kiq0 一列  ID  一列 label一列  comment    label  只有0或1  0 代表 comment 中的好评论 1反之    comment  全是中文评论 上面是训练集   对这个训练集 操作  然后对 test 集中的 comment 预测2000条评论 看是0 还是1
        8
    Liu6   39 天前
    @vsitebon 看了 但是 还是云里雾里的 不会 QAQ 不知道怎么把电脑上的 图片 上传
        9
    Liu6   39 天前
    数据包含 2 个 csv 文件:

    train.csv:训练集,共 10000 条,使用 UTF-8 编码,comment 和 label 用 Tab 分隔。

    字段名称 字段说明
    comment comment 即用户评论
    label label 是评论的类别,有 0 和 1 两个值
    test.csv:测试集,共 2000 条,使用 UTF-8 编码。id 与 comment 用“,”分割。

    字段名称 字段说明
    id 行的唯一标示,提交时需要一一对应提交结果文件
    comment comment 即用户评论
        10
    e3kiq0   39 天前
    直接用 comment 学习效果怎么样?
        11
    Liu6   39 天前
    比赛链接 www.datafountain.cn/competitions/370 发链接要手机验证 HTTP 我删了
        12
    duanxian1hao   39 天前
    萌新说一下自己的想法,对 comment 进行分析,提取基础的特征,比如说字数;对 comment 按照词粒度生成 embedding,将 comment 转为向量表示;
        13
    e3kiq0   39 天前
    [email protected] 能不能分享一下数据?学习一下。感谢 。
        14
    Eleutherios   39 天前 via iPad   ♥ 1
    等等……#11 的意思是,比赛题不会做了,请外援出出主意?

    It is unfair (
        15
    Liu6   39 天前
    @Eleutherios 不是 我做出来了 但是精度不高 想问下大佬们的 思路 只有 0.57 数据处理 我现在还在优化
        16
    lv2016   39 天前
    之前做过类似的文本情感分类,当时主要定义了一些负样本里常见的特征比如中英文混杂、特定词出现频率等
        17
    TimePPT   39 天前
    这不就是典型的二分类问题么……题目已经很简单了😂
        18
    Liu6   39 天前
    @TimePPT en 是的 我用的 svm 但是 我数据处理的不是很好 精度不高 主要是 一列是中文 加特征 或者 其他方法 我不知道 怎么选择 萌新 没什么经验 面对中文 应该怎么办
        19
    TimePPT   39 天前   ♥ 2
    @Liu6 算力足够试试 RoBERTa 中文预训练模型? https://www.jiqizhixin.com/articles/2019-09-05-6
        20
    Liu6   39 天前
    @TimePPT 感谢! 我去瞅瞅
        21
    misaki321   39 天前
    svm 已经不适合这类题目了
    用词向量+神经网络
        22
    Liu6   39 天前
    @misaki321 神经网络一开始有考虑 但是 我 个人觉得 最根本的原因是 数据处理的不好 我把中文 进行了 label 编码 了 我觉得这个是主要原因 我就一直不知道 中文 应该怎么处理
        23
    xwhxbg   39 天前
    bert 中文,把最后一层替换输出就行了,既不用分词也不用手动词向量,更不用手工提取特征
        24
    xwhxbg   39 天前
    首先震惊于这个比赛奖励居然是 100w,其次发现这是个训练赛,不知所以。。。
    我用 bert 随便跑了一个 epoch,validation acc 0.91 看排行榜基本能进前 50 了。。。
    https://colab.research.google.com/drive/1j9cBSsitjm2igaj50u9pwtu56XY3uBYg
        25
    Liu6   39 天前
    @xwhxbg 我没有接触过 Bert 今天下午 也看了一下 Bert 但是 有点懵!!
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1320 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 25ms · UTC 23:43 · PVG 07:43 · LAX 15:43 · JFK 18:43
    ♥ Do have faith in what you're doing.