7 月22日下午,在中国数智发展研究中心DTinsight主办的《“格物致知数启未来 —— CxO数据要素沙龙·广州站”》,新叔在会上进行了《NoteBook+AI:数据科学的新范式》主题分享。抱歉:拖沓了两周才整理成短文。
究竟什么是数据科学
近两年来,数据科学和数据科学家的名字频繁出现,似乎笼罩着一层神秘的面纱。这与数据分析和机器学习之间有着什么不同呢?让我们通过DIKW体系(数据、信息、知识、智慧金字塔)来更好地理解这个过程。
我们对DIKW体系的层次结构相当熟悉。它描述了从数据到智慧的逐步演化过程。在这个过程中,数据分析和数据科学是两个不同阶段的方法,而机器学习或深度学习则是实现这个过程的一种方式。数据分析是DIKW过程的初级阶段,致力于从数据中提取信息和知识。在这个阶段,我们关注的是将数据转化为有用的信息,甚至是知识,以帮助做出决策和推断。
而数据科学则涵盖了整个DIKW过程中的中后段,专注于将数据转化为知识或见解(Insight)。数据科学家的任务是通过科学研究的方法,探索数据,从中寻找有意义的模式、关联和趋势。这个阶段更加强调从数据中获得深层次的理解,以便做出更精确的预测、指导决策,并发现隐藏的洞察力。
在整个DIKW过程中,前期阶段更加确定性,随着过程的推进,不确定性逐渐增强。数据科学所面临的主要挑战正是来自这种不确定性。因此,数据科学家需要运用科学研究的方法,深入探索数据,从中寻找知识、见解甚至智慧。

DIKW体系图
总之,数据科学和数据分析是实现DIKW过程不同阶段的方法,而机器学习则是加速这个过程的一种手段。数据科学更加强调从数据中发现深刻见解和洞察力,因此在面对不确定性的挑战时,采用科学研究的方式进行探索变得尤为重要。
数据分析/数据科学面临的痛点
当前数据应用面临着诸多痛点:首先,数据需求得不到满足。80%的数据需求得不到满足,数据的价值有待挖掘;其次,数据分析/数据科学的门槛非常高。严重依赖数据科学家/专业分析师,导致数据分析团队的服务范围受限,许多业务的数据需求无法得到满足;第三,生产效率不高。传统数据分析通常由数据分析师生产数据洞察,但这种模式存在瓶颈,限制了数据分析的广泛应用。

就像短视频生产方式的演化路径一样,DIKW生成方式也在不断变化,并逐步演化。我们可以将DIKW生成方式分为三种:PGC、UGC和AIGC。目前,我们正处于从PGC时代,逐步迈向UGC,再到AIGC时代的过程中。
在PGC时代,专业生产者(类似于专业数据分析师)负责从数据中提取信息和知识,将其转化为有价值的内容。类似于短视频中的制片人,这些专业人士具备深厚的领域知识和技能,能够从数据中挖掘出深刻的见解。
随着时间的推移,我们进入了UGC时代,用户成为内容的创造者。就像短视频中普通用户可以创作内容一样,业务人员也能直接参与数据分析,从而产生更广泛的数据洞察。这种方式能够将更多的观点和经验纳入DIKW生成过程,从而产生更丰富多样的结果。
然而,正如您所熟知的,当前AI技术尚未达到完全准确的程度,尤其在涉及专业领域内容时存在局限性。这成为AIGC时代的一个痛点。尽管在AIGC时代,业务人员可以借助强大的AI模型平台进行数据分析,产生数据洞察,但AI在处理复杂领域和专业领域的内容时仍存在挑战。
因此,从PGC时代,到UGC,再到AIGC时代的过程仍然需要时间。随着AI技术的不断发展和改进,我们可以期待在AIGC时代实现更高水平的自动化数据分析和智能洞察生成。在这个过程中,平衡专业性和自动化的关系将是关键,以便在不同领域和场景中获得更准确、有价值的数据洞察。
NoteBook+AI:数据科学的新范式
解决当前数据面临的痛点和挑战需要综合考虑多个方面,包括数据质量、复杂性、不确定性等。利用AI大模型辅助进行数据分析,以及在数据分析/数据科学领域融合人脑的智慧和AI的智能,确实是一个有前途的方向。
- AI辅助数据分析 :大型AI模型可以协助数据科学家进行快速数据分析、特征提取、模式识别等。这可以大大缩短分析时间,同时也可以发现更深层次的洞察。
- 融合人脑和AI的智能 :人类的直觉、创造力和领域知识在数据分析中仍然至关重要。AI模型可以辅助人类进行数据解释、结果验证和模型选择,从而充分发挥人脑的智慧。
- Notebook+AI :笔记本是一个组织方式,使数据科学家可以记录工作流程、分析步骤和结果。AI模型可以嵌入到笔记本中,提供智能建议、自动化流程和实时反馈,从而加速数据科学过程,降低成本。
最佳的方式确实可以是将Notebook与AI相结合,这种新范式能够极大地促进数据科学的发展。通过Notebook记录工作流程,加上AI模型的辅助,可以实现更高效的数据分析,同时保留了人类专业知识和判断力的重要性。这种融合能够提升整个数据分析过程的质量和效率,为决策提供更准确的支持。
NoteBook+AI是数据科学的新范式。NoteBook是一个组织方式(躯干),AI就像一个翅膀,两者合力可以加速提升数据科学过程,降低成本。 目前阶段大模型还存在很多问题,特别解决复杂点问题时存在幻觉,或者说胡编乱造的,数据分析或数据科学是比较复杂的过程,目前阶段AI起辅助作用,还是人脑为主。
SmartNotebook 是数据科学新范式的实践
SmartNoteBook,实际上是现代化的Notebook、是Notebook的企业版,也是对Notebook的升级,是协作、集成、一站式数据科学/分析环境平台。

SmartNoteBook(以下简称SNB)结合大语言模型开发出了数据分析AI伴侣的新功能:数据智灵,用户可以通过自然语言描述数据分析需求生成、编辑、bug修复和文档注释Python或SQL 代码,这种方式可以帮助用户更加轻松地处理和分析数据,尤其是对于那些不熟悉编程的人员来说,使用自然语言描述数据分析需求会更加直观和方便。
数据智灵是人工智能驱动功能,可以帮助数据分析或数据科学方面做更多的工作。这个功能是实验性的、还有一些小故障和缺陷。目前为止:不应该依赖人工智能生成的代码来准确、完整或没有偏见;是一种增强而非取代人类洞察力和判断力的方式。
SmartNoteBook在数据分析或数据科学有以下三点创新:
第一点,重组了数据组织各角色交互方式。 将组织内的业务人员、数据工程师和数据科学家以往的角色进行重组,在同一个平台上进行交流、交互,改善交互方式,优化数据分析。
随着数据在组织中的重要性日益增加,业务人员、数据工程师和数据科学家在数据分析过程中都发挥着关键作用。然而,由于不同角色之间的分工和职责,他们可能在交流和协作方面遇到挑战。为了优化数据分析流程,提高团队协作效率,SmartNoteBook将这些角色以更紧密的方式组织在同一个平台上,可以为数据驱动的决策提供更好的支持。

第二点,重塑数据科学过程。 统一数据科学和数据工程,从业务理解,到数据准备,再到建模、评估上线。经过不断迭代,统一决策过程,重塑整个数据分析的过程。
在过去,数据科学和数据工程往往被视为分开的领域,涉及不同的任务和流程。数据科学过程强调从数据中提取见解,通过模型建立来解决业务问题。数据工程则关注于数据的收集、存储、清洗和处理,以支持数据科学的实际应用。这种分割可能导致流程的不连贯,效率的降低,以及在业务理解、数据准备和模型实际应用之间的信息流失。
SmartNoteBook通过统一数据科学和数据工程,从业务理解到数据准备再到建模和上线的全过程,可以实现数据分析流程的重塑,提高团队协作效率,加速决策制定,并为组织带来更大的竞争优势。

第三点,重新定义数据科学中人与工具的关系。 团队中的各种角色都可以在SmartNoteBook平台上通过工具实现数据报表、分析报告等功能。
在过去,由于各种角色使用不同的工具、线下的低效率交流以及知识背景的差异,可能导致沟通困难和效率低下。例如,业务人员可能使用业务报表工具,数据工程师使用ETL工具,数据科学家使用分析和建模工具,导致信息交流不畅,数据分析过程复杂且分散。
通过SmartNoteBook平台可以有效地解决各种角色间存在的沟通困难和效率低下的问题。这种统一的协作环境可以加速数据分析流程,促进知识共享,从而为组织带来更高的价值和竞争优势。

总结一下:SmartNoteBook在数据科学领域做了一些创新,希望通过Notebook的组织方式(躯干)和AI大模型的魔法能力(翅膀)一起助力企业/组织的数据智能应用,帮助企业数字化转型。
最后十分感谢<中国数智发展研究中心DTinsight>的同事邀请和帮助。