V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
changwei
V2EX  ›  分享发现

百度贴吧是不是在做假数据啊?

  •  
  •   changwei · 2017-04-24 15:23:35 +08:00 · 3946 次点击
    这是一个创建于 2530 天前的主题,其中的信息可能已经有所发展或是发生改变。

    很久没玩贴吧了,应该是最近几个月新上线了一个漂流瓶功能,地址为 http://tieba.baidu.com/bottle/bottlesPage ,但是我仔细观察以后,发现这些漂流瓶高度怀疑为百度自己做的假数据,打开这些美女帅哥图片,可以看到发帖人的帐号 id 格式都很固定,正则表达式描述大概为

    /^[\x{4e00}-\x{9fa5}](3,4)\d(1.2)$/
    

    这种格式的 id ,打开他们的发帖记录,发现都是在各种乱七八糟的帖子发从网上抓取的美女帅哥图片,有的甚至是扒的各种网红微博和某些模特的照片,水印都没去掉。并且这些 id 的吧龄清一色的为 0.3 年左右。我使用百度自带的密码找回功能找回这些账号,发现这些账号均未绑定任何手机和邮箱,按照百度现在的策略,注册必须绑定手机号,虽然有部分分站可以无需任何绑定注册百度账号,但是这种帐号无法在百度贴吧发帖。而且这些帐号并没有发任何广告,只是单纯的发漂流瓶照片,所以根据种种迹象推测,他们这样很可能是内部在做假数据?

    他们这样做的目的是什么呢?刷 kpi ?还是制造热点?如果是刷 kpi 的话,这样也太明显了吧,我都能看出来,他们上级领导看不出来吗?

    25 条回复    2017-04-30 00:01:40 +08:00
    minamike
        1
    minamike  
       2017-04-24 15:38:27 +08:00
    楼主是第一天用百度吗
    akwIX
        2
    akwIX  
       2017-04-24 15:39:09 +08:00 via Android
    一般的傻傻的用户才不懂
    chiv3
        3
    chiv3  
       2017-04-24 15:46:32 +08:00
    有十年了吧
    TheCure
        4
    TheCure  
       2017-04-24 15:47:37 +08:00
    作假数据而已 又不是什么伤天害理的事情, 百度也不是第一次干了, 有啥大惊小怪的

    他们上级领导看不出来吗?
    看得出来的都走了
    wadjj
        5
    wadjj  
       2017-04-24 15:51:39 +08:00 via iPhone
    不一定是刷 KPI ,可能就是一个运营手段。做社区产品,不搞这种运营的反而是少数了。
    lfk0000
        6
    lfk0000  
       2017-04-24 15:53:27 +08:00
    你和上级领导看出来不要紧
    普通民众看不出来就行了(゚Д゚*)ノ
    imn1
        7
    imn1  
       2017-04-24 15:55:13 +08:00   ❤️ 2
    不要把众所周知的事情发到分享发现节点
    mylab
        8
    mylab  
       2017-04-24 15:56:06 +08:00
    这些数据都是从 1 月份开始,明显都是制定范围,和我家产品采集的数据造假方式很像^_^
    changwei
        9
    changwei  
    OP
       2017-04-24 16:36:28 +08:00 via Android
    @minamike @chiv3 除了百度知道以外,百度的其他产品目前没有发现这种情况啊!
    @wadjj 百度这种运营太明显了吧,至少图片也要去个水印,爬几个冷门博主的照片吧,这些账号既然是自己内部数据库添加,吧龄和注册邮箱按道理也可以随机生成一下的,还有发帖记录也可以关掉的。
    changwei
        10
    changwei  
    OP
       2017-04-24 16:39:15 +08:00 via Android
    @lfk0000 @callofmx 领导肯定希望自己主管的产品是实实在在的有人用,而不是做一堆假数据撑 kpi 混工资吧。领导都是这种态度对待自己的产品,难怪现在贴吧微博之类的平台越来越水了。
    mcone
        11
    mcone  
       2017-04-24 16:43:22 +08:00
    目测是拿这些当做启动用户来钓鱼吧……
    lfk0000
        12
    lfk0000  
       2017-04-24 16:46:31 +08:00
    @changwei 应该不是“做一堆假数据撑 kpi 混工资”,我也猜是钓鱼。。。一种营销手段而已。。。
    ylsc633
        13
    ylsc633  
       2017-04-24 16:51:48 +08:00   ❤️ 2
    太正常了!

    我去年喜欢没事 会 回答一些 百度知道.....偶尔放点链接,现在博客每天很大一部分的流量都来自百度知道..

    百度知道里 有很多问题 都是 百度在其他一些地方抓取过来的!!!

    我怎么发现的呢... 问题没有截取成功.. 感觉那一句话都没有说完..

    然后提问者的 id 很奇怪,就像加密后的那种.. 还有很多陌生的汉字...

    最后我证实了下..

    我在这种问题下 回答 "我猜你这条是百度抓取的.百度机器人的问题! (.....中间要多写点乱七八糟的东西...),我猜这条会被采纳..."

    然后第二天,果然被采纳了
    wadjj
        14
    wadjj  
       2017-04-24 16:53:20 +08:00 via iPhone
    @changwei 没必要花那么多精力吧,你这种用户不是针对目标。绝大多数手游里半夜匹配的多半是机器人,明眼人都看得出来,但是也不要紧啊
    killerv
        15
    killerv  
       2017-04-24 17:05:43 +08:00
    肯定是假的
    bk201
        16
    bk201  
       2017-04-24 17:49:06 +08:00
    肯定要做出一片热闹的景象啊
    Khlieb
        17
    Khlieb  
       2017-04-24 19:15:46 +08:00
    搞假数据算个啥,人家光是计价排名就能日进斗鑫
    tumbzzc
        18
    tumbzzc  
       2017-04-24 19:22:42 +08:00
    这是什么的正则写法?和 python 不一样啊哈哈
    chensuifu
        20
    chensuifu  
       2017-04-24 19:29:13 +08:00
    不搞假数据,光秃秃的怎么吸引用户。
    27149
        21
    27149  
       2017-04-24 19:51:47 +08:00
    产品冷启动。
    Jasmine2016
        22
    Jasmine2016  
       2017-04-25 08:36:20 +08:00
    不作假,还敢叫百度么。。
    SKull4
        23
    SKull4  
       2017-04-25 09:04:18 +08:00
    @changwei 其实我想知道怎么找回的,以前有个号密码忘了,有很多黑历史想删掉。贴吧客户端申诉老是不行
    changwei
        24
    changwei  
    OP
       2017-04-25 17:09:25 +08:00 via Android
    @tumbzzc 我学的是 php 里面的 perl 正则表达式写法,有可能有些错误我也是随手写的,意思能看懂就好啦。 @wadjj 确实,就是感觉百度一个这么大的厂,还搞这些东西,说句不好听的话:不知道是不是和用户群体的认知水平普遍过低有关
    @SKull4 登陆的时候选择登陆遇到问题,然后按照流程申诉,实在过不了,打百度钱包客服电话如实回答他的提问。
    @ylsc633 百度知道做假数据这个很早以前就看出来啦,百度贴吧这个是最近才有的。
    55555
        25
    55555  
       2017-04-30 00:01:40 +08:00 via Android
    留名 bug 吧 斜眼笑
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5444 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 08:39 · PVG 16:39 · LAX 01:39 · JFK 04:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.