请教：分析报告的数据都是怎么得到的？

前辈们好，我是一外行，所以不太懂网络方面的专业知识。在这儿请教一些不太明白的问题，希望大家指点噢！

今天偶然看到一篇博客，分析了2010年的主要团购网站。http://julying.com/blog/mind-mapping-analysis-of-the-chinese-domestic/
我想问问，诸如下面的数据，博主是怎么得到的？谢谢！
是用什么工具，还是发布调查问卷啊（不好意思，我只能想到这两个。）

11 2010-用户购买原因
11.1 价格便宜：80.9%
11.2 正好需要：61.0%
11.3 体验新的购物形式：46.8%
11.4 商品可以就近消费：29.6%
11.5 商品礼品送人：27.5%
12 2010-不购买原因
12.1 不了解这个网站，不敢买：47.9%
12.2 暂时不需要：47.3%
12.3 太忙，没时间参与：25.3%
12.4 流程太复杂：25.1%
12.5 商品消费太远：19.3%
12.6 对团购不感兴趣：11.6%
12.7 太贵了：5%

hhsv

2013 年 7 月 20 日

@akira
谢谢您的回答哇！

今天我发现一本叫《社交网站的数据挖掘与分析》的书。简介说，好像可以通过一定的编程经验和学习基本的Python工具来挖掘Facebook、Twitter和LinkedIn等网站的社交数据。其中包含，谁通过社交媒介正在进行联系?他们在讨论些什么?或者他们在哪儿?

我想再请教一下：
1.是不是技术高手能通过编程得到上述数据？
2.网站在数据方面没有保护措施吗（因为我感觉这些数据很宝贵啊，就这么被别人看到了好像有点没有安全感）？
3.好像网络爬虫也能抓取数据（百度到的，还是不太懂啊），爬虫抓取的数据和编程得到的数据有什么不同呢？

问的有点多，可我真的很好奇啊，谢谢啊！！！

jianghu52

2013 年 7 月 22 日

说下我个人的理解。
首先，爬虫不可能搜集到这些信息。说到底，爬虫只是一个管道，负责把页面上的信息传递给搜索引擎，这个信息不可能那么多，那么详细，通常都是就是几十个字大小的内容。soe就是干这个的。
其次，数据挖掘不是无中生有，基础数据一定是存在的，再挖掘整理之后，才会出现结果。
结论：用户购买原因的这个结果，应该是通过问卷形式出现得到的。但是这个问卷可能不是通常意义上的纸质问卷，可能是通过一些诱导，比如退货的时候吐槽给几个选项，购买成功的时候炫耀几个选项。这样的零散的结果，然后再总结起来，形成了一个报告。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/76109

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.