传统统计学如何影响统计新发展 (统计学面临的挑战机遇)

网络技术的发展,网页设计相关技术用于统计数据处理、计算和展示的技术条件已经成熟,

一、统计学和网络统计学的概念

统计学

统计学 (Statistics)是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。

统计学是从事各类科学研究工作所必须掌握的知识,是人们认识未知世界的有效工具。随着计算机技术的迅猛发展和普及,大量数据的处理技术变得很容易实现,这就使得很多统计方法在现实中的应用也变为可能。目前,统计学技术方法日益渗透到数据挖掘、计算机技术以及专业研究领域,实践应用对统计学理论方法提出更多新要求。

网络统计学

网络统计学 (Network Statistics) 是一门新兴的、拓展了的统计学,是在计算机网络和相关软件支持下收集、整理、储存、传递、显示、分析和解释数据,从而反映和揭示自然、社会现象数量特征和数量规律的方*论法**科学。在分析手段和技术方法上,既重视和继承传统的统计分析方法,更突出现代计算机网络条件下的不同分析手段和技术。

二、网络统计学的特点

在计算机网络支持下处理统计数据,面临许多和传统统计学不同的新问题。网络统计学具有如下特点:

  • 数据载体不同:统计数据的基本载体不再是“纸张“,而是“磁盘“。在网络环境下,统计数据的主要载体为云空间、网站服务器以及U盘和光盘等;
  • 数据传输(交换)方式不同:存储在网站服务器端的原始统计数据或经过处理的统计数据可以及时在世界范围发布,也可在用户间(包括微信、博客等)、用户和服务器间即时传递数据;
  • 数据数据输入输出方式不同:网络统计学在处理数据时应可以“读懂“(数据导入、输入)服务器端和客户上传的各种数据,经过处理后的统计数据也必须以特定的格式传递(数据导出、输出)给用户终端。根据统计学的特点,采用人们广泛接受的格式化数据,让“网页”能“读懂“它们,从而实现数据的“自动”输入、输出。为了方便网络数据传输(交换)和自动导入数据、输出数据,建立网络统计学数据格式标准至关重要
  • 数据处理方式不同:统计数据处理过程通过网页编程方式实现。具体方式为在服务器端和浏览器页面运用不同软件编程构建分类统计算法函数库,然后通过网络脚本语言调用网络统计分类库函数或再编程解决各种复杂数据处理问题。

三、网络统计学基础编程技术

1、HTML+CSS+JavaScript

网络统计学离不开网页前台编程技术,学习web前端开发基础技术(网页设计)需要了解:HTML、CSS、JavaScript三种语言。这三门技术在网页设计中的用途是:

HTML是网页内容的载体:内容就是网页制作者放在页面上想要让用户浏览的信息,可以包含文字、公式、图片、视频、表格等;

CSS样式是表现(外观或装饰):就像网页的外衣。比如,标题字体、颜色变化,或为标题加入背景图片、边框等。所有这些用来改变内容外观的东西称之为表现;

JavaScript用来实现网页上的动态效果:如鼠标滑过弹出下拉菜单,或鼠标滑过表格的背景颜色改变。还有焦点新闻(新闻图片)的轮换。可以这么理解,有动画的、有交互效果的网页一般都是用JavaScript来实现的。

JavaScript(JS)是一种属于网页脚本语言,已经被广泛用于Web应用开发。可以使用JS添加、删除、修改网页上的所有元素及属性;在HTML网页中动态写入文本、数字和插入图表;响应网页中的事件,并做出相应处理。了解JS编程后,可以轻松调用各类网络统计学库函数和在网页上统计数据处理或分析。

网络统计学在计算机网络和相关软件支持下收集、整理、储存、传递、显示、分析和解释数据,HTML、CSS、JavaScript这三种语言是学习和运用网络统计学平台的基础知识。

在互联网技术全面普及发展的今天,网页设计技术已经不是计算机专业从业者的专利,具备大学、甚至高中以上学历的任何专业的人都可以在短时间内通过自学基本掌握这些技术。相对而言,网页脚本JavaScript对于从来没接触过计算机编程的人来说有点难度,HTML和CSS比较容易接受。业内有这样一句话,“入门三天、成手三年”,成为“高手”则需要在实际工作中长期使用和不断学习专研。学习和运用网络统计学不需要多么精的web前端技术,具备入门基础知识即可。

2、EXCEL+VBA for EXCEL

Excel 是微软办公套装软件Microsoft office重要组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。

Excel主要用来进行有繁重计算任务的预算、财务、数据汇总等工作。Excel的定位是统计办公软件,和OFFICE其它办公组件一起在国内外办公软件市场占有80%以上份额,其在全球范围内有着其它软件无法比肩的用户数量。

在教学、科研、机关、公司各领域日常工作中,我们几乎都和微软公司的办公软件OFFICE打过交道,数据分析或统计工作者又有谁没使用过Excel!

但是很多用户对EXCEL的丰富功能用之甚少。据微软的一个市场报告分析称,EXCEL约占电子表格办公软件80%市场份额,但大多数用户只使用约20%的功能。通过在校学习和社会培训提高EXCEL使用技能,可大大提高社会整体工作效率和个人工作能力。

随着数据处理速度和容量的不断提升,Excel数据交换平台的角色日益显著。各种专业数学、统计软件、数据库和高级编程语言都可以读写Excel文档,Excel文档本身也可以将数据按多种格式储存。由于Excel处理和展示日常数据非常直观、方便,大部分数据处理工作人们习惯与将数据导入Excel处理,个别复杂工作可将数据导出到其它软件处理或用VBA for EXCEL在后台编程解决。

从数据分析角度看,Excel可以很好的用于数据收集(数据模拟、抓取)、数据存储(数据库和数据源)、数据处理(统计计算、时间函数、字符处理等)、数据展示(图形、表格)和数据交换。在教学、科研、机关、公司日常工作中,Excel无处不在、天天都用。

从过往经验看,随着时间的推移,各种软件更新速度越来越快,但HTML+CSS+JavaScript和EXCEL将不会过时。

如果不是从事工程、生物、媒体等专业领域设计(这些领域往往使用专用软件),做为大众使用的工作、教学软件,我首推HTML+CSS+JavaScript和EXCEL+VBA for EXCEL。

四、网络统计学知识构成

  • 数学
  • 统计学
  • 数据挖掘方法
  • 网络编程技术
  • 在线学习和考试系统

1、数学

  • 高等数学、线性代数、概率论与数理统计;

2、统计学

  • 描述统计学方法:描述统计学主要通过统计数据的收集、整理、总结和描述来了解数据的基本特征,包括测量中心趋势(如平均值、中位数、众数)、测量离散程度(如方差、标准差、四分位数范围)和测量数据分布形态(如直方图、柱状图、概率密度图)等;
  • 推论统计学方法:推论统计学主要通过从样本数据中进行推断,来对总体数据的未知参数进行估计和假设检验。包括点估计和区间估计,以及假设检验和置信度检验等方法。点估计给出了总体参数的一个估计值,而区间估计则给出了总体参数的一个范围估计。假设检验用于对总体参数的假设进行检验,从而对统计显著性进行判断;
  • 回归分析:回归分析用于研究变量之间的关系,包括简单线性回归和多元线性回归。简单线性回归分析研究两个变量之间的线性关系,并建立线性模型,多元线性回归则可以分析多个自变量对因变量的影响;
  • 方差分析:方差分析用于比较两个或多个样本的均值是否存在显著性差异,常用于处理多个组或多个处理之间的差异,包括单因素方差分析和多因素方差分析。
  • 非参数统计学方法:非参数统计学方法不依赖于总体分布的假设,主要包括Wilcoxon符号秩检验、Mann-Whitney U检验、Kruskal-Wallis检验、秩和检验等;
  • 抽样方法:抽样方法用于从总体中选择样本,并通过对样本的研究来对总体进行推断。包括简单随机抽样、分层抽样、系统抽样、整群抽样等;
  • 时间序列分析:时间序列分析用于研究随时间变化的数据,包括趋势分析、季节性分析、周期性分析和自回归移动平均模型(ARIMA)等。

这些是统计学的一些主要方法,用于从数据中提取信息、进行推断、进行假设检验、比较和分析数据。不同的方法可以根据具体问题和数据类型选择合适的方法进行应用。

3、数据挖掘方法

数据挖掘是从大规模数据中发现隐藏在其中的有价值信息的一种方法,主要方法包括以下几种:

  • 分类:分类是通过对已知标签的训练样本进行学习,从而构建一个分类模型,用于对未知数据进行分类。常用的分类方法包括决策树、朴素贝叶斯、支持向量机(SVM)、逻辑回归、随机森林等。
  • 聚类:聚类是将数据集中的对象划分为不同的组或簇,使得组内的对象相似度较高,而组间的相似度较低。常用的聚类方法包括k均值聚类、层次聚类、DBSCAN、谱聚类等。
  • 关联规则挖掘:关联规则挖掘用于发现数据中的频繁项集和关联规则,用于描述数据中的关联关系。常用的关联规则挖掘方法包括Apriori算法、FP-Growth算法等。
  • 回归:回归是通过对已有数据的学习,构建一个回归模型,用于对未知数据进行数值预测。常用的回归方法包括线性回归、多元回归、支持向量回归(SVR)、决策树回归等。
  • 特征选择:特征选择用于从大规模数据中选择最重要的特征,以降低维度、减少噪音和提高模型性能。常用的特征选择方法包括方差选择法、卡方检验、信息增益、递归特征消除等。
  • 异常检测:异常检测用于发现数据中的异常或异常行为,常用于检测欺诈、异常交易、网络入侵等。常用的异常检测方法包括基于统计的方法、基于聚类的方法、基于分类的方法等。
  • 文本挖掘:文本挖掘用于从大规模文本数据中提取有价值的信息,包括文本分类、情感分析、实体识别、关键词抽取等。

以上是数据挖掘的一些主要方法,用于从大规模数据中挖掘有价值的信息,支持决策和洞察。在实际应用中,可以根据问题的需求和数据的性质选择合适的方法进行应用。

数据挖掘方法=数学+统计学+编程技术+专业知识

4、网络编程技术

(1)、服务器搭建和后台软件支持(Mysql、Node.js)

学校或培训机构专业人员开发和维护,选修。

I、MySQL

MySQL是一种开源的关系型数据库管理系统(RDBMS),广泛用于存储、管理和检索数据库中的数据。它是世界上最受欢迎和广泛使用的数据库之一,以其易用性、性能和可扩展性而闻名。

MySQL的一些关键特点包括:

  • 关系型数据库:MySQL遵循关系型数据库模型,允许将数据组织成表格形式,每个表格包含多行记录,每行记录包含多个列。
  • 多用户和多线程支持:MySQL具有强大的多用户和多线程支持,可以同时处理多个客户端的请求。
  • 安全性:MySQL提供了多层次的安全性措施,包括用户认证、数据加密、权限管理等,用于保护数据库中的数据免受未经授权的访问。
  • 高性能和可扩展性:MySQL被设计为高性能和可扩展的数据库管理系统,支持大规模数据处理和高并发访问。
  • 跨平台支持:MySQL可在多种操作系统上运行,包括Windows、macOS、Linux等,具有良好的跨平台兼容性。
  • 支持多种编程语言:MySQL支持多种编程语言的接口和API,如Java、Python、Node.js等,方便开发人员在不同的应用程序中使用MySQL进行数据操作。
  • 强大的社区支持:MySQL拥有一个活跃的开发社区,提供了大量的文档、教程、示例代码和社区支持,方便用户学习和解决问题。

MySQL在许多应用程序中被广泛使用,包括Web应用程序、移动应用程序、企业级应用程序等,它是一个功能丰富、性能强大且可靠的数据库管理系统。

II、Node.js

Node.js(简称Node)是一种基于V8引擎的JavaScript运行时环境,用于在服务器端运行JavaScript代码。Node.js允许开发者使用JavaScript语言进行服务器端编程,从而实现前后端统一使用同一种编程语言的目标。

Node.js的特点包括:

  • 异步非阻塞I/O模型:Node.js采用异步非阻塞的I/O模型,使得在处理大量并发请求时能够高效地处理I/O操作,提供出色的性能表现。
  • 单线程事件驱动:Node.js使用单线程的事件驱动模型,通过事件循环和回调函数来处理请求,避免了传统多线程模型中的线程开销和同步阻塞的问题,使得编写高性能的服务器程序变得更加简单。
  • 轻量和高效:Node.js的设计目标是轻量和高效,它使用了V8引擎作为底层引擎,具有出色的性能和内存管理能力。
  • 跨平台:Node.js可以在多种操作系统上运行,包括Windows、macOS、Linux等,具有良好的跨平台兼容性。
  • 模块化:Node.js采用模块化的开发方式,允许开发者将代码组织成模块,方便代码的复用和维护。
  • 丰富的生态系统:Node.js拥有丰富的生态系统,包括大量的第三方模块和库,提供了丰富的功能和工具,便于开发者进行快速开发。

Node.js在Web开发、服务器端应用、实时应用、API服务等领域得到了广泛应用,被越来越多的开发者采用,成为一种流行的服务器端开发工具。

(2)、前台网页设计技术(HTML、CSS、Javascrip)

(3)、日常数据处理(EXCEL、VBA for EXCEL)

(4)、网络统计函数库和Web Service数据接口运用

I、Javascript常用数学和统计学方法库

JavaScript拥有丰富的数学和统计学方法库,可以方便地进行各种数学和统计学计算。以下是一些常用的JavaScript数学和统计学方法库:

  • Math.js:Math.js是一个功能强大的JavaScript数学库,提供了大量的数学和统计学计算函数,包括基本数*运学**算、线性代数、矩阵操作、统计分析、概率计算等。
  • numeric.js:numeric.js是一个用于数值计算的JavaScript库,提供了一系列的数学和线性代数计算函数,包括矩阵运算、插值、优化算法、微积分等。
  • statistics.js:statistics.js是一个专注于统计学计算的JavaScript库,提供了一系列的统计学计算函数,包括概率分布、假设检验、回归分析、描述性统计等。
  • jStat:jStat是一个专门用于统计学计算的JavaScript库,提供了丰富的统计学计算函数,包括概率分布、假设检验、描述性统计、回归分析、时间序列分析等。
  • Simple-statistics:Simple-statistics是一个简单易用的JavaScript统计学库,提供了大量的统计学计算函数,包括均值、标准差、方差、相关系数、假设检验等。
  • probability-distributions:probability-distributions是一个用于概率分布计算的JavaScript库,提供了多种概率分布的计算函数,如正态分布、二项分布、泊松分布等。

这只是一些常用的JavaScript数学和统计学方法库,还有其他许多优秀的库可供选择,根据具体需求选择合适的库可以方便地进行各种数学和统计学计算。在使用这些库时,建议查阅它们的文档和示例以了解其用法和功能。

II、Web Service数据接口

Web Service数据接口是一种用于不同应用程序之间进行数据交换和通信的技术,通过网络进行数据传输和交互。它基于Web服务技术,使用标准化的协议和格式进行数据传输和通信,常用的协议包括SOAP(Simple Object Access Protocol)、REST(Representational State Transfer)、JSON(JavaScript Object Notation)等。

Web Service数据接口可以用于不同应用程序之间的数据共享和集成,使得不同平台、不同语言、不同技术的应用程序能够互相通信和交换数据。它可以用于实现不同系统之间的数据传递、功能调用、远程方法调用等。

Web Service数据接口的主要优点包括:

  • 平台无关性:Web Service数据接口使用标准化的协议和格式,不依赖于特定的操作系统、编程语言或技术,因此可以在不同平台上进行互操作,实现跨平台数据交换和通信。
  • 松耦合性:Web Service数据接口采用松耦合的方式进行通信,不关注具体的实现细节和内部结构,使得系统之间的耦合度较低,易于扩展和维护。
  • 可扩展性:Web Service数据接口可以根据需求进行灵活的扩展和定制,可以添加新的功能和接口,以满足不同应用程序之间的数据交换和通信需求。
  • 互联网友好性:Web Service数据接口基于互联网标准协议和格式,如HTTP、XML、JSON等,与互联网环境兼容,方便在Web上进行调用和测试。
  • 安全性:Web Service数据接口可以通过安全协议和认证机制进行数据传输和身份验证,保护数据的安全性和隐私性。

Web Service数据接口在现代应用程序开发中广泛应用,例如在跨系统集成、移动应用开发、云计算、大数据等领域都有重要的作用。不同的Web Service数据接口协议和格式有各自的优点和适用场景,开发者可以根据实际需求选择合适的协议和格式来实现数据接口功能。

5、在线学习资源和考试系统

  • 在线数据处理和练习
  • 网络课堂、论坛和答疑
  • 注册、学习、考试认证系统

五、统计学面临的机遇与挑战

近年来在我国和大数据产业密切相关的网络通讯基础建设飞速发展,国内涌现出百度、阿里、腾讯等带有鲜明大数据特色的大型数据公司。金融、商业、生物、地理信息、天气预报大数据服务平台纷纷出现,微信、QQ、百度云、阿里云、地图导航、微博、博客等大数据时代所催生的软硬件产品令人迎接不暇。信息传递、数据交换和存储已经如此容易!各个生产和科学领域都在大量地产生和收集数据。自然科学领域收集着从宏观的天文数据到微观的基因数据;经济、金融和人文社会科学收集着大量的观察和调查数据。随着计算机互联网、搜索引擎、电子商务、多种传感器和多媒体技术的发展和广泛使用,各种形式的数据如江河流水般地涌来。

同样的模型、同样的数据处理方法在大样本面前必须借助于各种工具和软件进行处理。

懂理论不懂编程、懂编程不懂方法,教师和学生动手能力差、数据处理技术水平低,课堂教学内容和社会需求渐行渐远。在大数据时代来临之际,几乎所有国内大学都面临严峻挑战。

毫无疑问,大数据时代统计学依然是数据分析的灵魂,但只会统计学方法不懂工具和编程的学生很难发挥专业特长,学生“高分低能”、“眼高手低”这种现象亟待改变。过去十几年社会经济和技术发生了翻天覆地的变化,大学的教学方式有些滞后了。

我们培养出的学生的技能和社会实际需求的差距在不断拉大。很多企业早已经行动起来,政府也已经动员起来,大学的教学和科研思路也该加速调整了。大学的办学目标在很大程度上是培养社会需要的复合型实用型人才,“轻学历、重能力”越来越成为现实社会的用人标准。

在我们这个社会中,有“文秘”、有“生活秘书”,还有类似的“领导助理”工作,目前为止这都是些令人羡慕的、有前途的工作。大数据时代催生“数据秘书”,其不同之处在于:

  • 工作(服务)对象不同
  • 工作环境、范围不同
  • 要求的技能不同

合格的“数据秘书”必须具备处理这些复杂数据的技能。具体来说涉及以下几个方面:

  • 办公自动化(Microsoft Office:Word、PowerPoint 、Excel);
  • 信息传递和数据交换(微信、QQ、邮箱、视频聊天和电话等、数据交换格式);
  • 打字、复印、电传等办公设备;
  • 数据展示(微信、博客、网页、统计图表和公式);
  • 数据收集(网络、网页数据抓取、Python);
  • 数据处理(EXCEL、VBA for EXCEL、R语言等软件);
  • 数据存储(数据库、数据仓库、云)。

在网络信息化时代,凡是人们用某种载体记录下来的、能反映自然界和人类社会某种信息的,就可称之为数据。步入大数据时代,信息的种类和数量越来越丰富,载体也越来越多。数字是数据,文字是数据,图像、音频、视频等都是数据,数据的含义已经大大超出传统范畴。目前,大数据被广泛应用于医疗、通信、互联网企业、能源、市场营销、金融及社交娱乐等领域。随着大数据应用越来越广泛,对数据分析人才的需求也会与日俱增!

数据挖掘、深度学习、人工智能这些新兴技术的基础就是统计学和计算机的融合。当代统计学专业的学生或工作者除了具备坚实的统计学、数学基础,还必须学会借助计算机编程手段进行高效的数据处理。

在大数据时代,统计学待处理的数据类型、质量和数量产生根本变化,统计学方法和手段亟待更新和扩展。在分析手段和技术方法上,既重视和继承传统的统计分析方法,更突出现代计算机网络条件下的不同分析手段和技术。随着网络技术的发展和大数据时代的到来,构建网络统计学的技术条件和时机已经成熟,网络统计学必将迎来新的发展机遇。