扒一扒真实的大数据行业_大数据

扒一扒真实的大数据行业

中国工控网

2016/10/31 17:17:01

　　大数据是近年来方兴未艾的行业，也是企业服务的一个重要门类，在上一期的文章中做了简单的罗列和介绍。在今天的文章中，水镜先生结合自己的专业知识，为大家扒一扒真实的大数据行业。

360截图20161031171918659.jpg

　　【大道至简】

　　首先要说一个简单的道理：所有能产生巨大功效的方法都是简单的。

　　现在“大数据”似乎变成了忽悠代名词，主要是被不懂的人用的太多、太滥。这些不懂的人，往往会向你“喷射”大量的名词术语，让你“不明觉厉”，觉得大数据是一个特别深奥、特别“黑科技”的领域，做大数据的公司是特别牛、特别高大上的公司。

　　其实不然。

　　这里举一个例子，大家都看过电视剧《暗算》吧，里面的《看风》一篇有一套“光复一号”密码，无数人为之倾倒，简直是不可解的。后来数学家黄依依到来之后，终于找到了其中的秘密。根据笔者的数学知识，这里的算法应该就是目前应用广泛的RSA算法的某种形式或变体，这种算法的各种改良版本至今仍然服务于网上银行等诸多需要高等级加密的领域。

　　听上去，这套算法应该很复杂吧？事实完全相反。这套算法所用的数学方法，一位初中一年级的同学（甚至数学较好的小学生）都能轻松理解，就是一个巨大数字的因式分解而已，而且只需要拆成两项，即 C = A x B，在此基础上做一些找素数、求余数等简单处理。

360截图20161031171857699.jpg

　　【大数据行业有多简单】

　　大数据行业也是如此，真正强大的方法一定是简单的。总结来说，要做一家大数据行业的企业服务公司，只需掌握这么几个流程就可以了：

　　1. 数据收集（爬虫/接口/政府或机构提供）

　　2. 数据清洗（留下想要的数据，或者/加上换换格式）

　　3. 数据建模（找到合适的模型或模型组合，加以合理的训练）

　　4. 数据报告（找到合适的应用场景，做出有用的决策或结果）

　　那么这是不是需要一群数学牛人、甚至数学家来组建团队？非也。实际上，大数据业务大部分只用到高中的数学知识，建模的流程用到的一些基础的高等数学（比如线性代数、概率统计）——而且，注意还有而且，大部分建模的代码已经有现成可用的开源库了，像python之类的语言很容易直接调用。

　　【爬虫工程其实很简单】

　　笔者看到有不少人在寻找爬数据的高手，不少爬虫工程的需求出了很高的价钱。其实爬虫这个工程本质上是非常非常简单的，连小学生都能听懂。

　　简而言之，爬虫就是快速读取网页里的信息，按规定的格式存下读出来的数据。举个例子，你需要天猫上所有“手工手镯”的自有品牌名称，只需要去读取天猫的搜索结果页面，找出这些商品名称详情页面上“品牌”这一属性的文字即可。

　　当然，如果你需要高速读取、信息快速反馈的爬虫，那就要用到分布式、生产-消费模型（其实就是分配任务的模型），以及一些破解反爬虫的技巧（如用更多的代理服务器IP反抗IP封锁）。但是本质上，这一部分绝对不是一门“黑科技”。

360截图20161031171826637.jpg

　　【请不要叫我数据清洗】

　　大家被各种“大数据公司”洗脑洗多了，整天听到“数据清洗”四个字，感觉特别高大上，自己肯定不懂。其实数据清洗绝对不是什么“高大上”的技术，它基本上就是在做两件事：

　　1. 去除重复

　　2. 去除不合要求的数据

　　第1点非常好理解，很多数据提供商号称自己有几亿数据，其实重复率很高。不重复的数据才有利用的价值，用在各种计算的时候才不会有太大的干扰。

　　至于第2点，常见的情况是数据项缺失很多的数据。比如一份报名表，里面20个栏目，只填了5个以下的数据就几乎没有价值，应该被去掉。

　　当然这两点要做好也是不容易的，比如去重的时候要考虑相似的重复（科技有限公司误写成技术有限公司等）；而数据的失效有些也是“木桶式”的，某一项数据缺失就会导致数据失去价值，等等。

360截图20161031171804404.jpg

　　【数据建模高中生就能玩】

　　这个确实是大家公认大数据行业“最为高大上”的部分，其实也不尽然，笔者认为有高中数学基础的人很快就可以搞明白。

　　数据处理本质上是为了两种目的，一是预测未来的趋势，二是分类。预测未来的模型其实往往相对简单，线性回归我们在高中就学习过，无非是构造一个函数，使它的图像线条尽可能符合描出的数据点。这里重点讲讲分类问题，也就是“聚类”，用在很多很多领域，比如聚合相关新闻、让计算机理解语言、推荐商品等。

3下一页>

　　以简单的二维坐标系来说，对于二元数据的问题，我们把数据描在坐标图上，分类就是找到一条线把这些数据点切开，可以是直线也可以是曲线。推广一下，对于N维的情况，就是一个曲面把这些点切开。

　　接着讲一点几个基础知识点：首先是马可洛夫链。别看名字很高大上，其实就是一句话：为了把问题化简让计算机能够处理，我们认为所有要输入的数据状态只与前一个数据有关。比如北京一周的气温，我们认为今天的气温只与昨天的气温有关。接下来是贝叶斯模型，其实和马可洛夫链差不多，只是更现实一些，今天的气温还可能与一周前的那天的气温有关。

　　于是，就有了我们现在经常听说的“神经网络模型”，实质上也是贝叶斯模型，而且还进一步简化一些，就是今天的气温与昨天的有关，而且设定一个函数（只能有一次二次变换，比如指数函数）做为关联。在把N天的气温都用类似的方式连接起来，我们就有了一个“神经网络”！是不是挺简单的。

　　好了，“深度学习”最近辣耳朵了吧，其实它就是“多层神经网络”，也就是多个有输入和输出的神经网络模型组合起来，目前考虑计算能力，一般不会超过三层。

　　说了那么多，其实现在常见的模型python等数据处理见长的语言都有现成的开源库，直接调用吧！

　　【数据报告反而很重要】

　　数据报告看起来很没技术含量，不就是解释一下数据处理的结果么？其实不然，如果你想做一家成功的大数据企业服务公司，下面的事情其实非常重要：

　　1. 熟悉你的客户的公司，至少要熟悉行业；

　　2. 找到具体的数据应用场景，而且是简单、直接、有效的，比如我的数据能增加成单率；

　　3. 通过不断的实验，检验客户使用数据决策的效果，及时调整。

　　有一种误区，很多人以为“大数据”是搞研究，其实不然，大数据是赤裸裸的商业。对于一项好的商业来说，应用场景非常重要，对客户或行业熟悉也非常重要。哪怕你只是做了一个简单的权重公式，如果你对行业了解，对客户了解，也能发挥很大的作用。

　　总之，希望有意在大数据方向企业服务领域创业的朋友，一定要记住本文开篇的话：“大道至简”，一定记住“有用才是硬道理”。