请教一下各位大大, 数据挖掘具体是做什么的?

2016-08-04 17:19:26 +08:00
 gulu

前几天面试了一家公司, 只了解到需要用到很多爬虫。
我用爬虫爬过一些网站,但数据挖掘更加很高大上的。
所以我想了解一下数据挖掘是什么样的工作:

  1. 是不是要先观察数据源的格式,比如 json 的嵌套, HTML 的结构, 之后再用爬虫去定向收集感兴趣的东西。而数据挖掘师需要对每个数据源进行爆破, 除了分析结构之外,还要处理验证、屏蔽的事情。
  2. 还是说有一套通用的 magic , 把这个 magic 一放, 数据就来了。 而数据挖掘师的目的就是编写这一套魔法的。当然也还是要处理验证、屏蔽的事情。
  3. 如果有这样的 magic , 有什么关键字可以让我去了解一下? 是不是搜索引擎相关的?

可能这个问题很搞笑, 但我希望有大神稍微指点一下。

1602 次点击
所在节点    问与答
5 条回复
shakespaces
2016-08-04 18:11:22 +08:00
爬虫是获取数据的工具,数据挖掘主要是对获取到的数据进行一系列加工处理,来得到人能够直观理解的有效信息
yrq110
2016-08-04 18:15:15 +08:00
data->information
lsoknet
2016-08-04 18:23:52 +08:00
同问,数据挖掘具体做什么?比如我想获取阿里巴巴上的企业信息,能做到吗?
gulu
2016-08-04 19:10:37 +08:00
@shakespaces 这个是数据处理和数据分析的过程吧,那数据收集是怎么样的呢?
shakespaces
2016-08-04 19:21:25 +08:00
@gulu 来源比较多吧,比如说爬虫爬到的,数据库里面的信息什么的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/297150

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX