人工智能数据分析与挖掘应用 (数据分析数据处理的ai智能软件)

  数据分析/数据科学是商业世界中的重要工具,可以帮助企业更好地理解市场和客户需求,从而优化业务和提高竞争力。

数据分析AI伴侣:Notebook与AI结合

  传统的数据分析有两种主要方式:编写代码和使用BI工具可视化拖拽。虽然这两种传统的数据分析方式仍然具有重要意义,但是它们在如今的人工智能和AIGC的大环境下已经有点“过时”了,我们需要一种更加智慧、智能的数据分析范式。

  SmartNoteBook(以下简称SNB)结合大语言模型开发出了数据分析AI伴侣的新功能:数据智灵,用户可以通过自然语言描述数据分析需求生成、编辑、bug修复和文档注释Python或SQL 代码,这种方式可以帮助用户更加轻松地处理和分析数据,尤其是对于那些不熟悉编程的人员来说,使用自然语言描述数据分析需求会更加直观和方便。

人工智能数据分析应用,数据分析中的人工智能应用

  数据智灵是人工智能驱动功能,可以帮助数据分析或数据科学方面做更多的工作。这个功能是实验性的、还有一些小故障和缺陷。目前为止:不应该依赖人工智能生成的代码来准确、完整或没有偏见;是一种增强而非取代人类洞察力和判断力的方式。

  数据智灵(AI数据分析伴侣)的功能还需要您(人类)点击一个应用(确认)按钮。由您来确定所写的内容是否正确,确定是否接受生成的代码(应用/丢弃):

人工智能数据分析应用,数据分析中的人工智能应用

  • 数据智灵目前使用GTP3.5 Turbo,可以创造了较好的完成效果,仍然不很完美,存在一些错误或幻觉(hallucination)的发生率。就目前人工智能并不完美,而且会犯错误或幻觉,应该仔细审查生成的代码,AI为人类编码创造或判断的促进剂,而不是替代品。
  • 数据智灵不会发送底层任何数据给模型。例如:表中的数据值不会给模型,防止数据泄露的风险。
  • 数据智灵将表的结构元数据和项目代码作为上下文提供给模型以便生成代码和修复代码。比如:表、列名、别的数据类型、代码中的信息是可能传递给模型。

  用户在notebook内使用数据智灵插件,输入自然语言描述需求。同时,插件会读取当前kernel或数据库的上下文信息(例如数据集的结构信息、表的结构信息等元数据),按照prompt模板提供给语言模型。Agent根据自然语言需求描述和上下文信息组合的prompt提供给大模型,生成代码(python或SQL代码)。Python内核(kernel)执行代码,并根据执行结果调整prompt,重新生成代码,或进行Edit(修改代码)、fix(修复)。

  插件基于基础大语言模型(例如GPT3.5),在不同的场景下(例如特定分析场景或建模场景下、或针对SQL等)进行微调,以提高生成代码的质量。例如,如果用户输入了关于某个特定场景主题的自然语言,插件可以根据这个主题微调模型进行生成。

人工智能数据分析应用,数据分析中的人工智能应用

  Notebook和AIG(ChatGPT、Bard等)的相互融合可以改变数据分析的新范式。Notebook作为主要的数据分析工具之一,提供了交互式的界面,可以让分析人员在一个地方进行数据分析、可视化和代码编写。而AIG(ChatGPT)则可以在Notebook中作为一个辅助工具,帮助分析人员快速生成代码或解决一些数据分析中的痛点问题。这样可以有效提高数据分析的效率和质量,同时降低技术门槛和人力成本,让更多的人可以参与到数据分析中来。

数据智灵应用实例:聚类分析

  聚类分析是一种将数据集中的对象按照相似性进行分组的方法。在数据降维后,利用可视化来研究不同数据点之间的分布和相似性,以揭示潜在的数据模式和结构。以iris 数据集为示例。

  • 打开数据智灵(AI伴侣),两种方式打开数据智灵,空单元内快速进入模式( 使用数据智灵.... )、单元格内 智灵图标 打开。

人工智能数据分析应用,数据分析中的人工智能应用

  • prompt输入框输入:使用pandas加载本地iris.csv文件,数据集名称为df. 然后 回车提交 ,思考中...

人工智能数据分析应用,数据分析中的人工智能应用

  • 生成的代码后,确认返回代码:应用代码或丢弃掉; 应用

人工智能数据分析应用,数据分析中的人工智能应用

  • 接受生成的代码,并执行

人工智能数据分析应用,数据分析中的人工智能应用

  • 接下来依次操作,完成聚类分析: 将{{df}} 数值的四个字段进行降维度,降到2维,合并df数据集上,分别为x、y 列将{{df}}使用seaborn以Species为系列,分别以x,y为x、y轴生成散点图
  • Fix 代码,当code错误,可以使用AI进行修复,例如下面一个简单的示例

人工智能数据分析应用,数据分析中的人工智能应用

  上述整个操作过程如下:

视频加载中...

数据智灵应用实例:SQL生成

  SQL是企业和组织的核心数据管理、数据处理和数据分析的核心语言。在数据科学领域,SQL的重要性不言而喻,它易学易用且与脚本语言集成,广泛应用于数据科学流程。

如果你想玩转数据,那你一定要会SQL。

  接下来我们Demo一下通过数据智灵生成SQL示例:

  • 插入SQL 单元格

人工智能数据分析应用,数据分析中的人工智能应用

  • 选择数据源(生成SQL会依赖部分的元数据:表结构,所以先设定数据源,作为生成SQL的上下文信息)

人工智能数据分析应用,数据分析中的人工智能应用

  • 打开数据智灵,输入需求描述: 查询表{{language}},并计算学生的总分

人工智能数据分析应用,数据分析中的人工智能应用

  • 引用表的元数据,生成SQL

人工智能数据分析应用,数据分析中的人工智能应用

  • 应用并执行,得到需要的数据

人工智能数据分析应用,数据分析中的人工智能应用

上述整个操作过程如下:

视频加载中...

  结合AI与Notebook的实践和应用,极大地利用了AI的能力,提高了数据分析的效率并降低了技术门槛。通过数据智灵的AI伴侣/辅助工具,用户可以通过自然语言描述数据分析需求,生成、编辑和修复代码,从而更轻松地处理和分析数据。这种方式使得数据分析对于不熟悉编程的人员来说更加直观和方便。同时,Notebook作为主要的数据分析工具,提供了交互式界面和可视化,与AI相结合可以快速生成代码、解决问题,进一步提高数据分析的效率和质量。这样的实践不仅充分利用了AI的能力,也让更多的人能够参与到数据分析中,推动了数据驱动决策的应用和普及化。

关于SNB

  SmartNoteBook(简称:SNB)是一款现代化的Notebook工具,它是一个开箱即用、云原生、协作式的在线数据科学与分析平台。SNB具有以下特点:

  1. 数据连接:SNB可以连接到各种数据形式,包括数据文件、数据库/仓库、数据湖、图数据库、数据开放平台API等。您可以轻松地获取所需的数据,无论数据存储在哪里。
  2. 数据分析与探索:通过SNB可以进行探索性数据分析,内置探索性数据分析的组件、SQL原生支持,支持数据清洗、转换、聚合等操作,深入了解数据的特征和模式。同时也可以使用Python 生态体系内各种强大的工具和库。
  3. 建立预测模型与服务API:SNB提供了机器学习和预测建模的功能。支持Scikit-learn、TensorFlow等库,建立预测模型,并将其创建为服务API,供其他应用程序调用和使用。
  4. 支持知识图谱挖掘:SNB支持连接图数据库进行关系数据的分析、计算和挖掘,将数据之间的关系和连接进行可视化,有助于发现数据之间的隐藏模式和洞察。
  5. 数据可视化与报告生成:SNB提供了丰富的数据可视化功能,敏捷可视化分析和输出,用于展示和传达数据的见解和故事。
  6. 仪表盘与报告共享:通过SNB创建交互式的数据仪表盘和报告。可以将数据的洞察和分析结果以直观和易于理解的方式与团队或其他利益相关者共享。

  SmartNoteBook致力于实现从数据接入到数据价值的全流程,使数据处理和分析变得更加简单、高效和可协作。通过SNB,您可以轻松地进行数据处理、分析和可视化,并通过共享报告和仪表盘将数据的洞察传达给相关人员。