浅谈大数据和统计学 (浅谈大数据论文3000字)

1、大数据的来源

我是一名硬件工程师，平常喜欢看一些互联网方面的最新动态，最喜欢琢磨各个行业的盈利模式，也喜欢看看各个行业的财报，平常没事的时候也喜欢乱写写自己的思考，这个话题真的喜欢，就说说我的浅见吧。

最近这些年互联网相关的东西，才几年时间智能手机已经卖了多少亿部了，谁能在5年前想到有滴滴打车，谁能在10年前想到有微信这么好用的APP，社会在发展，人类在进步，数据的发展为人类做出了不可磨灭的贡献。

首先我们来说说什么是数据，百度上的翻译是：数据(data)是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的的原始素材。其实数据一直在发展，也就是资源在不断的发展，在人类发展的历史上，人们对于资源不断利用和发掘，让数据内容不断充实。在很久以前人类的资源很少，数据也很少，曾经有这么一个故事，说的两个酋长打赌，谁说的数字更大就赢了，其中一个酋长说了一个数字三就赢了，可见当时资源的稀缺性，基本上很少能看到大于3以上的东西，可能都没有看到3个以上的动物，所以当时资源已经稀缺到了这样的地步，人们对于数字的想象力也就这么大。

随着人类技术的不断发展，人类获取资源的途径也越来越多，获取到的资源也越来越多，特别是文艺复兴以后，人们更愿意通过实验的方法得出结论，那么实验的过程中会获得大量的数据，通过对于数据的分析归纳整理，让数据得到充分的作用，也让理论有了根基，曾经有一段时间人们把理论算法的重要性远远高于数据的重要性，到了最近50年左右，人们逐渐认识到数据本身的重要性，特别是一些人工智能的算法都依赖大量的数据做实验来提高其准确性，比如现在的人工翻译。其实数据一直都有，比如人们购买报纸的数量，喜欢看什么样的肥皂剧，经常喜欢的购买的东西，人们日常生活的习惯，这些数据一直都在，只是没有一个完整的方法和方式去统计，因为当时的技术还没有达到处理这么多数据的能力。

一个东西的发展要么是技术得到突破，要么是材料进行了突破，谁能想到手机还能视频，在10几年前拨号上网的速度也不过就100KB，香浓定理为材料传输数据的带宽做出了理论的依据，同轴光纤，wifi技术为数据传输做出了材料上的突破，谁能想到现在的最普通的手机性能是第一台电脑性能的百倍还快，第一台电脑的产生本身就是为数据处理而产生，为军方的算法做运算处理。有了技术理论和材料的发展，大数据的处理才会更得心应手，所以才有这几年比较火的“大数据概念”，一直把这个风口吹了好几年，但是真正靠这个风口起飞的公司不多，我们来谈谈什么是大数据。

首先说说我们现在生活中经常接触到的“大数据”吧，你会经常遇到不懂的问题，需要上百度去搜索问题的答案，这里搜索出来的结果是通过大数据匹配出来的结果，你需要经常使用滴滴、Uber软件打车，这里需要大数据运算给你推荐最近的车辆匹配你的需求，你需要经常去淘宝上购买东西，当你输入男士短袖的时候，会根据相关的大数据算法给你推荐出相应的衣服供你选择。说到这里，想到一句广告语，我们不产水，我们只是大自然的搬运工，想想这些打车软件公司何尝不是大自然的搬运工，他们自己是轻资产的公司，不自己运营车辆，只是把有需要打车的需求同需要载人赚钱的需求匹配在了一起，把双方的数据通过合理的算法运算达到一个最佳的效果，他们也是大自然的搬运工。所以我们即是大数据的需求者，也是大数据的生产者和制作者。

2、大数据的合法性以及大数据分析的合理性

数据本身是没有问题，可是我们在利用这些数据的时候来源和方法就需要注意，正如欲望是没有问题的，可是在为了满足欲望的手段和方法是需要注意的，君子爱财取之有道也就这个理。

首先说说大数据的合法性，目前很多手机里面的应用的权限很高，手机APP收集信息都是这样说的：主要目的是做优化功能，提供更优质的服务，当然也包括定点向用户推送广告等。目前大多数APP的权限都比较高，仔细看每个APP的权限时，你可以发现很多APP都具有收集来电信息，短信，定位，照相，自动打电话等功能，需要手动去关闭一些权限，看小米手机的隐私权限里面说明可以看到，它收集自带浏览器的缓存数据，收集手机用户的定位信息，是为了给用户更好的体验，如果是14岁以下的小孩，需要提前告诉，就不收集此类信息，因为怕触及到未成年隐私法。

移动互联网时代不仅让人无处可藏，更严重的是你很可能24小时都处于被追踪的状态。如今在中国注册APP，很多时候都需要填写手机号，一旦填写，你的手机号便成了此APP（背后的公司）的数据，接踵而来的很可能是各种促销和广告信息。安装APP时会有各种权限提醒，你同意得越多，隐私也就越少。当然这些都是在你安装APP的时候有提前告知义务，很多时候我们也没有注意直接安装了，都是没有察觉这些数据就被收集了，当然这些公司是负责任的公司，没有把信息泄露或者做其他事情都还OK，如果故意泄露盈利或者不小心泄露都会给用户带来不可预见的危险。相信大家对于前不久某连锁酒店的数据泄露，还有某邮箱泄露，这些都是内容泄露，如果某一个应用的账号和密码泄露会导致其他应用的账号和密码可能都被*取盗**了，因为很多人的多个应用的账号和密码是一致的。

目前我们被搜集的个人信息数据太多了，哪怕你注册一个小小的APP都需要你的手机号码，你的定位信息，稍微高一些的权限动不动就是需要收集身份证信息，当然对于APP公司来说手机号码粘稠性更高，对于用户操作起来也更方便，无论是登陆还是找回密码都很方便性，但是可能没有考虑是否有能力对于这些信息的安全存储。曾经看到过这样一个报道，判断一个公司是否伟大，并不是希望它能对社会有巨大的贡献，至少要保证它不做恶，谷歌就是这样的公司承诺，我们承诺对于社会不做恶，但是我们很难相信所有的公司都能做到这样的承诺。

我们经常会接到房地产，股票基金，银行*款贷**等业务员的推销电话，这些公司推销员很大部分的数据来源是通过购买相关的数据信息获取到你的个人信息，当然国家目前是禁止购买个人隐私信息，电话和身份证这类属于隐私信息，但是你也阻止不了这样的事件发生，新闻上经常报道购买东西的快递信息被用来倒卖。当然他是为了进准营销，找到更有价值的客户，对于公司产生效益，但是数据的来源不合法。当然大数据的收集对于一些企业来说是比较重要的，它能提供更好的用户体验给客户，比如音乐类APP，或者新闻头条等等，这些是根据你以往听过的音乐类型，以往浏览过的新闻类型，推荐相应的音乐或者新闻给你，这样让用户避免更多的时间去搜索这些内容，提供更好的体验。

当然我们谈论到数据的合法性，需要谈到搜集的数据属于什么类型，是否元数据就属于合法。美国发生911恐怖案件后，安全局就加大了监控电话通信的控制，被报道出长达10年监控多人的通话记录，曾经有一段时间被以侵犯个人隐私权利被起诉，当然最终都没有成功。美国隐私权在宪法层面体现为第四修正案，宪法保护”人民的人身、住宅、文件和财产不受无理搜查和扣押的权利，这里被监听的通话，属于文件受到搜查了，但是美国安全局给出的理由是，我们监控的是元数据，我们对于普通的民众没有监听通话内容，只是对于通话行为进行记录，比如什么时间给谁播出电话，通话时间多久这些元数据，当然这里判断的依据就是元数据不属于隐私范畴。所以我们也需要警惕搜集元数据类型的APP，比如搜集了你团购了火锅，没有收集到你火锅到底吃的什么菜品，搜集了你购买了电源票，没有收集你具体购买什么类型的电影。但是通过这些元数据，其实也能描绘出一个人的消费行为习惯，什么时间段最喜欢打车，什么时候叫了外卖，什么时候购买了运动服，什么时候购买了数据，什么时候团购了电影，这些综合数据可以大概构成一个人的行为习惯。如果仅仅是搜集了用作模糊数据，不针对具体个人信息做统计分析，那么这些数据就不叫做侵犯隐私，比如我是美团的，我搜集到了这些元数据，仅仅是模糊分析，不是针对个人分析，分析有多少比例喜欢看功夫片，分析周末上映的爱情片的上座率有多少，分析男女多少比例购买电影票，这些都属于正常的，就如同一家小卖部，我搜集了这个月卖出去多少啤酒，多少男女比例来购买零食，我做出相应的进货策略，这是无可厚非的，但是如果我卖出去的东西需要实名制，你买了一瓶啤酒需要登记手机号码和个人信息，那么就是不合理的。

对于数据分析的合理性，首先要对于公布数据的分析结果保持质疑性，为什么每次一公布平均工资的时候就很大部分白领都觉得自己拖了后腿，深圳很多人都觉得自己没有达到平均工资水平，我一个在深圳做了三年研发，在行业里面有竞争优势的人员都没有达到平均工资水平，这个时候你需要如人饮水冷暖自知，知道自己这份工资能否支撑你前进梦想的道路，如果让我世界首富一平均，那我也有几百亿。所有你需要对数据分析的结果保持质疑性。

第一要搞清楚样本数量有多少，这里的平均工资是有多少人的平均工资。举一个简单的例子，如果你在创维半导体的门口数经过的人数，你发现经过两分钟有10个男生，6个女生的经过，你不能说创维半导体的男女比例是5:3，但是如果半导体的男生女生出入大门同样频繁，而且是不同时间段的出入频率相同的情况下，你统计了500个人数，那么得出的男女比例就比较靠谱了。所以样本数量不充分，统计出来的数据虽然是正确的，但是结论可能是不正确的。到底需要多少数量的结果是误差足够小，这里有切比雪夫的定理可以知道一个随机量（比如创维半导体进出大门男女比例）和它的数学期望值（创维半导体实际男女比例）之间的误差无限小。P{|X-EX|>=ε}<=DX/ε^2，X是一个随机量，ε是误差，DX是方差平均值。这里的平均工资的数据样本需要知道有多少，网上搜到相关报告，《2015-2016南方人才年度广东地区薪酬调查报告》数据测评的有关负责人昨日向记者介绍，薪酬报告的统计口径包括直接抽取南方人才市场网站的简历信息中的薪酬数据、企业职位信息中的相关薪酬数据，参考猎头与咨询项目案例数据、人事外包企业数据，以及在线薪酬调研、南方人力资源评价中心广东省考试数据的信息，所以样本量还是比较大的。

第二个需要弄清楚样本的种类是否齐全，就算统计的人数再多，如果种类不齐全，那么可能结果也会有偏差，就这里的平均工资，如果我统计都是从事金融行业的从业人员的工资，那么肯定比较高，而且数据会高很多，所以这里的平均工资要考虑到是否包含了各个不同行业，管理层和普通员工比例是怎么样的？《数学之美》里面有一个案列说的是文学文摘连续四次成功预测了总统大选结果，1936年总统大选，这一次他回收了240万份问卷，预测共和*党**候选人兰登会赢，统计量如此之大，民众也相信这个预测。不过当时的新闻学教授盖洛普却对大选的预测结果提出了相反的看法，他通过对5万人的意见统计，得出了民主*党**候选人罗斯福会连任，结果大家当然都知道，罗斯福连任，为什么样本数量更少的盖洛普判断对了，《文学文摘》的样本数量虽多，但是主要是通过杂志订户，汽车主和电话本发送的问卷，这一类人群都是高收入人群，样本的种类不全，而盖洛普的统计样本，考虑了美国选民的种族，性别，年龄，收入等各种因素，因此虽然样本只有5万个，却更有代表性。

所以在我们县城有6所高中，每次高考统计的结果拉红布条显示都是第一，各种第一，我市重点人数升学率第一，我市本科人数升学率第一，我市考上重点人数第一，我市二本升学率第一等等，更搞笑的还有一个我校艺体生升学率第一，所以基本每个学校总能找到自己第一的数据结果，如果这样还不行，预测不久的将来会出现我市男士升学率第一，我市女生升学率第一，我市农村户口升学率第一等等宣传语。

第三我们需要关注的数据的来源是什么，个人还是权威机构，原始数据来源是什么，是否有遗漏。这里我们需要关注到数据是否有隐藏的部分数据，如冰山理论，我们只看到了数据的冰山一角，隐藏在冰山下面的大部分的数据无法看到。比如铁齿铜牙纪晓岚电视剧中，我们都看到刚正不阿的纪晓岚同坏人和珅斗智斗勇，这部分是真实的，但是他喜欢淫乱，这个很多人都接接受不了，所以基本上描述这个人的时候，就写他编撰了四库全书，文学社造诣怎么怎么样，人生的另一面被隐藏了。每次看到某空调的广告，每晚低至一度电，真的是一度电么，你看看广告下方的小字体了么？这个是实验环境下测试的，那什么实验环境下可以低至一度电，空调的温差基本为零的情况下那么耗电量最小，就是实验室的温度和空气的温度基本一致的情况下，耗电量最小，在这种实验环境下测量的，这种就是隐藏了部分数据。

第四我们需要知道在各种统计结果大概是一个什么工作原理或者算法统计出来的，我们常常都吐槽天气预报，“天气预报靠的住，母猪也会上树”，常常都会觉得天气预报的结果和实际感受到的温度差异很大，难道是我们的天气预报技术太差了？我就读的那所大学是在天气预报研究是在国内是属于顶尖的，曾经问过学大气科学的同学，他简单的说了一下，其实天气预报很复杂，首先是收集气象数据，从地面到高空，从陆地到海洋，全方位、多层次地观测大气变化，并将观测数据迅速汇集。其次，计算机将收集到的数据进行处理和运算，得到天气图、数值预报图等产品，提供预报依据。这里面涉及到统计学，概率学，还有各种气体运动模型，最终出来的天气预报其实是概率性的，只是概率比较高而已。我们常常感受到的温度是空气表面温度，身体比较敏感，天气预报往往是最低温度到最高温度一个区间，对于风速和降雨量基本上都是概率模型来预报，这些运动模型太过于复杂，需要综合天气学和动力气象学来分析，利用实测的气象资料计算出散度、涡度、垂直速度、水汽通量，热量和能量等物料量场，分析其空间分布和时间演变特征。说简单一点，就是预测可能跟不上变化。

写了这么多，给大家留一些思考，现在很多宝宝们的收益写的是5%，收益率是如何计算出来的，和每年的收益预期相符吗？每个季度都会公布居民消费价格指数CPI指数，这是基于什么统计出来的，都包含了哪些东西的价格对比，对我们消费投资有什么影响？

3、大数据的常见相关算法以及实际应用效果

我把创维数字报中小编的与大数据烦恼原文摘抄如下：

我是一万颗星星，创维数字员工一名，女，未婚单身，伪文艺青年，刚拿了驾照两个月，从去年今天到现在，我共收到微信朋友圈广告近35条，其中包括：

母婴类5次；男士用品类4次，如海澜之家、剃须刀等；

品牌车类5次，从玛莎拉蒂到特斯拉到mini到大众雪铁龙都有；

还有化妆品、香水、女士服装促销4次；

奢侈品牌手表、钢笔等3次；

其他熟知品牌广告，如乐视、京东、当当、二手车平台等各1次；

各种无厘头广告，完全不感兴趣或者广告图效果太差，不忍点击若干次。

并不知道，腾讯基于什么大数据分析，给我推荐了以上广告，我想在腾讯的用户行为画像中，我是一个时男时女，有家庭有伴侣有baby，开豪车但也喜爱低端车的商务精英...吧？如果简单粗暴的命中率，画面太美，我简直不敢想。

这里腾讯应该也是运营了大数据来在朋友圈推荐它的广告，因为腾讯目前用户数量是一个非常巨大，同时微信上产生的数据也是不敢想象的数据量，从上面可以看到腾讯给小编推荐的产品基本上是年轻人的产品，是属于白领到金领的阶段，可能性别属性没有那么明显区分，从小编的东西来看没有推荐学生用品和老年人用品，那么还是比较准确的定位为上班族，这里的用户属性标签很多，年龄，性别，收入，各种不同爱好，所在城市，消费习惯等等，属性太多了，在数据降维的时候会以比较少的属性来对用户描述，然后进行算法推荐。这里腾讯有能力对用户平常聊天内容进行解析，然后进行大数据推送，这涉及到用户隐私，而且数据解析量巨大，所以腾讯可能会基于我们平常关注的公众号，以及腾讯新闻上关注的事情来做一些算法因子推荐。

3.1说到这里推荐就简单介绍一下音乐和电视相关的推荐算法和原理，我们平常在听酷狗音乐，听完了一首歌以后会主动推荐一些你可能感兴趣的歌曲，比如你刚刚听完一首黄家驹的《光辉岁月》，那么可能给你推荐一首谭校长的《讲不出再见》，因为你刚刚听完了一首香港著名男歌星演唱的粤语怀旧歌曲，根据这些属性给你推荐相关香港著名男歌星的粤语怀旧歌曲。同理视频推荐基本上也是这样的一个原理，你看完一段视频后，界面上显示你可能感兴趣的视频，这些都是基于大数据分析同时结合推荐算法给用户更好的体验。下面介绍视频的一种潜在因子算法。

每个用户都有自己的偏好，比如A喜欢古装、历史、言情等元素，如果一部连续剧带有这些元素，那么就将这个连续剧推荐给该用户，也就是用元素去连接用户和点连续剧。每个人对不同的元素偏好不同，而每部连续剧包含的元素也不一样。我们希望能找到这样两个矩阵：

一，用户-潜在因子矩阵Q，表示不同的用户对于不用元素的偏好程度，1代表很喜欢，0代表不喜欢。比如下面这样：

浅谈大数据技术在会计中的应用,浅谈大数据时代下个人隐私泄露

二，潜在因子-电视矩阵P，表示每种电视剧含有各种元素的成分，比如下表中，电视剧A是一个偏悬疑的电视剧，含有悬疑新这个Latent Factor的成分是0.9，历史的成分是0.1，伦理的成分是0.2……

浅谈大数据技术在会计中的应用,浅谈大数据时代下个人隐私泄露

利用这两个矩阵，我们能得出张三对电视剧A的喜欢程度是：张三对历史的偏好*电视剧A含有历史的成分+对言情的偏好*电视A含有言情的成分+对悬疑的偏好*电视A含有悬疑的成分+……

浅谈大数据技术在会计中的应用,浅谈大数据时代下个人隐私泄露

即：0.6*0.9+0.8*0.1+0.1*0.2+0.1*0.4+0.7*0=0.69

每个用户对每首歌都这样计算可以得到不同用户对不同歌曲的评分矩阵。

浅谈大数据技术在会计中的应用,浅谈大数据时代下个人隐私泄露

因此我们队张三推荐四个连续剧中的得分最高的B，对李四推荐得分最高的C，王五推荐B。

下面问题来了，这个潜在因子（latent factor）是怎么得到的呢？

由于面对海量的让用户自己给电视剧分类并告诉我们自己的偏好系数显然是不现实的，事实上我们能获得的数据只有用户行为数据。我们可以通过以下方式量化标准：每天连续观看该连续剧并且看完=5, 经常观看该连续剧并且看完=4, 收藏该连续剧=3, 主动搜索该剧=2 , 偶尔看一下该剧=1, 跳过该连续剧=-2 , 拉黑=-5，在分析时能获得的实际评分矩阵R，也就是输入矩阵大概是这个样子：

事实上这是个非常非常稀疏的矩阵，因为大部分用户只看过全部很少一部分。如何利用这个矩阵去找潜在因子呢？这里主要应用到的是矩阵的UV分解。也就是将上面的评分矩阵分解为两个低维度的矩阵，用Q和P两个矩阵的乘积去估计实际的评分矩阵，而且我们希望估计的评分矩阵和实际的评分矩阵不要相差太多，也就是求解下面的目标函数：

这里涉及到最优化理论，在实际应用中，往往还要在后面加上2范数（A的转置矩阵与矩阵A的积的最大特征根的平方根值，是指空间上两个向量矩阵的直线距离，就是2范数）的罚项，然后利用梯度下降法就可以求得这P,Q两个矩阵的估计值。这里我们就不展开说了。例如我们上面给出的那个例子可以分解成为这样两个矩阵：

浅谈大数据技术在会计中的应用,浅谈大数据时代下个人隐私泄露

上面比较难的就是评分矩阵的选择因素，用什么东西来评判标准，矩阵的降维以及奇异值的分解是比较困难的。

这里就不对所以相关的涉及到的算法做一一讲解了，把可能的应用涉及到的算法简单介绍一下，我们平常用看的头条新闻分类用了余弦定理和矩阵运算，比如金融类新闻出现频率比较高的词语有:股票，利息，债券，基金，银行，物价，上涨等词语，这些特征词语反映在每一篇新闻上，如果两篇新闻属于同一类，他们的特征向量在某几个维度的值都比较大，而在其他维度的值都比较小。反过来如果两篇新闻不属于同一类，由于用词不同，在他们的特征向量中，值较大的维度应该没有什么交集，这样就可以通过余弦定理来判断两个特征向量的相似性，通过计算出相似性后，在通过矩阵算法算出期望最大值，把期望最大值的推荐给用户。比如用户读了一篇介绍小米手机最新黑科技的新闻，那么首先需要找到与这篇新闻相似的手机科普类新闻，然后通过对用户属性的矩阵运算，比如用户喜欢科技类占多少，喜欢技术类占多少，喜欢手机类占多少，最终推荐了一篇苹果最新指纹科技类文章给用户。

我们常用的搜狗输入法应用了布隆过滤器和马尔可夫链的扩展--贝叶斯网络算法，百度的竞价排名用了逻辑回归算法，当然少不了用卡尔曼滤波把不需要的噪声排除在外，这里多多说一点卡尔曼滤波算法（也叫最优化自回归数据处理算法）。对于解决很大部分的问题，他是最优，效率最高甚至是最有用的。他的广泛应用已经超过30年，包括机器人导航，控制，传感器数据融合甚至在军事方面的雷达系统以及导弹追踪等等。近年来更被应用于计算机图像处理，例如头脸识别，图像分割，图像边缘检测等等。最近红的发紫的无人机行业招聘算法工程师首先就需要懂卡尔曼滤波算法。

我们常常用的打车软件，比如滴滴打车，乘客输入什么时间打车，从哪里出发到哪里结束，然后司机端有自动派单系统和指定路线接客系统两种模式，这个需要期望值的最大化算法。当然比较有难度的是人工神经网络算法，它运用于语音识别、机器翻译、人脸图像识别这些热门大数据领域，不同的网络网络层次，每个层次有多少节点，节点怎么连接，这些都导致最后的准确度是不同的，需要处理的时间是不同的，以前这个算法发展较慢，是因为对计算机的运算能力要求较大，是计算机运算处理能力增强后才逐渐进入大家的视界。

现在BAT三大公司都想通过大数据来形成闭环的交易系统，比如百度，你在上面搜索哪里有好吃的，那么就可以直接给你推荐出好吃的地点以及餐馆，然后是通过百度直接就可以打车，然后到了那里消费结束后可以用百度支付直接付款，形成一个闭环交易。最近两年BAT公司都在收购与自己相关的互联网公司，也努力在与硬件公司合作，都希望有一个入口---应用（场景）-----支付环节这样一套完整的系统。目前滴滴和其他很多APP都有合作，开发滴滴的接口，你在美团上团购了美食，然后可以直接在美团上就可以使用滴滴打车的入口，这是一个互利的过程，滴滴打车可以为那些应用带来流量，更方便的应用，那些应用也可以给滴滴带来更丰富的利润，一个双赢的过程。这对于用户来说使用这个APP来说更便捷。

目前你看看微信的我的钱包里面的城市服务，里面你可以找到生活服务：挂号平台、天气预报、电费缴纳等等，也可以找到政务办事，出入境办理、电子社保卡、公积金余额查询、地税服务等等，也可以找到车辆服务：交通违法查办、加油卡、小客车摇号等等。当然这个需要在做好自身最重要的功能上在增加这些功能才是锦上添花，不然就是头重脚轻。如果微信没有了聊天功能，你还会使用么，如果支付宝没有了支付功能你还会使用么，如果滴滴没有了打车功能你还会使用么，所以核心要做好，毕竟一个应用不是狗皮膏药包治百病，其他的附加功能是在主功能做好的情况下在增加用户体验效果的。

前段时间亚马逊在通过大数据进行一项实验，选取了部分用户，根据这些用户的属性，年龄、性别、收入、消费习惯、根据你在亚马逊上购买经历以及评价数据，用推荐算法匹配出最可能适合你可能要购买的东西，然后直接通过快递送货上门，如果喜欢就直接付款，如果不喜欢不收就行了，现在购买一项东西在网上的选择成本太大，需要花费大量的时间和精力去选择一些自己喜欢的东西，所以这样的利用大数据购物推荐也可能是将来的一种购物形式。

在信息时代，数据就是信息的载体，每天我们的生活习惯，购买行为，对于电影，食物的喜好对于衣服的喜好，这些都是数据，数据每天都在发生，在这个信息快爆炸的年代，越来越多的信息出现在我们眼前，我们会花费太多的时间和精力去挑选合适的东西，所有需要一个精准的删选有效的信息的平台，以后在细分领域的大数据应用是一个比较不错的发展方向。比如求职领域，从最开始的报纸一小块版面有个别企业的招聘信息，到后来的周末求职版面，几乎几个版面都是招聘信息，再到后来的前程无忧招聘网站，也密密麻麻的工作，到最近专门从事互联网招聘的拉勾网，到后面专门从事高端人才招聘的猎聘网，都是从大数据中挑选有用数据做细分领域的成功案例，当然还有一些做母婴产品、军事产品、户外产品的网站就没有细说了。

目前越来越多的手机APP占用着我们的内存，从购物的京东、淘宝、一号店，有视频类腾讯、优酷、爱奇艺、暴风视频等等、有旅游类的携程、途牛、去哪儿、周边游等等，有导航类的高德地图、腾讯地图等等，我们需要记住这么多APP的账号和密码，对于用户来说也是一种负担。

用户都希望越来越便捷，不希望繁琐，比如你是一个用户，希望周五的下午去吃一顿大餐，看一场自己喜欢的电影，然后是打车过去。那么通常的做法就是需要网上去百度一下周围有什么好吃的，或者通过美团看看要去的地方附近有什么团购的商家，评价怎么样，有没有自己喜欢吃的东西，把吃的解决后，需要看电影，看看附近有什么电影院，都有什么类型的电影在*放播**，自己喜欢什么类型的电影，价格区间都是什么的。还需要计算好自己吃饭时间和电影时间，什么时候需要把车预约好。

那么最好的体验就是，你通过语音说希望吃四川火锅，看疯狂动物城，希望价格范围在什么区间，那么这个应用就直接给你预定了离你最近的四川火锅，同时预定好了滴滴打车，同时也购买好了价格和位置都比较合理的电影票，你只需要带好你的行李出门就行了，这些都交给大数据去处理了。当然要实现这个场景，有一定的难度，需要知道用户的属性，然后根据相关的推荐算法给用户推荐适合的东西，这个算法的准确度还得高，才能给用户更好的体验。

4、创维数字在大数据下的机遇与挑战

曾经在互联网上，特别流行的一句话就是：“没有人知道你是一条狗”，那时候人们特别担心网络语音*力暴**，一直担心网络诈骗。所以这么些年来我们一直以来都在推行实名制，网络论坛实名制，qq实名制，游戏实名制，社交平台实名制，招聘平台实名制等等，所以你现在不用担心没有人知道你是一条单身狗，就是你身体有几根毛都能知道。想想前段时间优衣库的事件，很短时间里相关主角的信息就被人肉出来，所以一朝成名天下知在互联网时代是特别容易的事情。

你的使用或购买行为也会被记录，比如根据你买猫粮或狗粮的行为，它会判断你家养的是猫还是狗，根据你购买的频率，它会在你刚刚需要购买的时候提醒你。你的通话信息会被记录，它可以通过判断你经常联系的人推测你的妻子、父母的联系方式。通过跟踪你的位置信息，它可以轻易地判断你的家和公司分别在哪。可以说，在移动互联网时代是没有绝对意义上的隐私的。

目前很多互联网公司都意识到大数据的重要性，比如阿里巴巴集团，阿里巴巴的本质是一家扩大数据价值的公司。阿里健康：药品数据；滴滴、高德：出行数据；优酷土豆：线上娱乐数据；菜鸟网络：物流数据；蚂蚁金服：支付数据；淘宝天猫：交易数据；恒生电子：证券数据；陌陌微博：社交关系数据；口碑、饿了么：餐饮数据。阿里把数据当作新商业的基础设施。

或许我们公司在做零售市场之前也许没有考虑过大数据方面的思考，在这之前我们基本属于B TO B类的公司，基本上很少直接面对终端用户，绝大部分的产品定义都是运营商定义好的，接口、颜色、外观、功能、甚至什么平台，所以我们更多的数据是在关注于该产品的利润有多少，生产周期、售后数据等等，从这些大数据中分析怎么降低成本，怎么从研发角度提升产品的质量和品质，怎么加快生产效率等等。

现在面对了更多的终端市场，越来越多的OTT产品，智能家居产品需要走零售终端市场，直接面对消费者，我们需要逐渐面对越多越多的大数据，对于这些大数据分析做出相应的策励，比如从我们售卖出去OTT盒子，需要从京东或者淘宝后台得到相应的数据，分析描绘出购买的用户属性，什么年龄的用户购买，什么地区购买多一些，购买的价格是什么什么阶段，喜欢什么颜色，对于内容的平台的喜爱是爱奇艺还是腾讯？这些都是产品经理需要分析的相关数据，很多行业这些数据如果自己公司没有，后面像商业行为的数据会越来越贵，很多行业类的分析报告，都需要这类数据来做支持，都是需要付购买费用的，价格你懂得。

怎么有效的进行精准影响，怎么从其他平台导入流量，怎么计算网上投入营销费用所产生的效益，这些都需要大数据分析计算。人们目前获得信息的渠道太多了，以前获得信息的渠道无非就是广播、报纸、电视、杂志、和户外广告，到目前获取信息的渠道基本上360°无所不在，手机浏览器，门户网站，微信公众号，微薄等各种新型媒体，广告无处不在。现在不是酒香不怕巷子深的年代了，需要营销为一个有情怀，有性能，有故事的产品。怎么做好营销投放广告的效益最高，这也是一个学问，怎么评判一个广告转化为有效购买力的数据，不然投太多的广告都是石沉大海。我们更多的需要的是精准营销，针对目标客户的营销。现在好多公司都不在广撒网式的广告了，比如拉勾网只针对网联网方面的招聘，在选择人员的时候只需要针对IT方面的工作经验的人，比如电话营销，我们经常接到一些给你打电话推销保险或者理财方面的人，他们公司获得你的信息也是比较精准的，很可能是你以前开过证券或者在银行买过理财产品的信息被泄露了，所以他们知道你有理财方面的经验和愿望，才会定向推销给你电话。怎么通过其他平台导入流量，怎么计算分成费用，怎么计算导入的流量购买有效率，这些可能都是需要学习相关大数据知识。

我们可以跟内容提供商合作，可以跟软件应用合作，像手机那样，预装一些推广软件可以收软件商的费用，还可以通过安装购物类软件，收取一些费用，可以收取一些广告商的费用，但是这些都得和内容提供商一起协商，机顶盒如果上了数量多了以后，也可以作为一个流量的入口端，“钱途”不可限量，很多的商业模式等着我们去探索，我们有无限的可能。

大数据有价值，但是如果不转换为有效的利润，那么也相当于守着一座金山只能看不能吃，我们也可以通过网络机顶盒搜集信息，这么多的大数据收集，也需要我们有一个能力强的大的数据分析能力，把数据转化为有利润的东西，比如定向推送购物类广告，这需要招聘懂消费者心理学相关的数据分析师，学会从这么多数据中找寻有用数据转换为有效利益。

借用狄更斯的一句话，对于大数据时代来说，这是一个最好的时代，也是一个最坏的时代，你能感受到这些大数据给你带来的方便，你也能感受到大数据可能给你带来的信息泄露的恐慌。

王小波曾说：我对自己的要求很低：我活在世上，无非想要明白些道理，遇见些有趣的事。倘能如我愿，我的一生就算成功。本公众号就是推广一些有意思的事情，推广一些常识，让生活变得有趣。

欢迎关注我的公众号，每天给你有趣的观点和内容。

浅谈大数据技术在会计中的应用,浅谈大数据时代下个人隐私泄露