「妙手数评」产品经理的数据科学基础

几周前,我们围绕主题组织了一场活动——产品经理的数据科学基础。曾在 Naukri.com 和 RedBus 担任数据科学产品经理的 Chinmaya Behera 在这个话题上讲得非常好。我们在下面的博客中记录了他的想法。我们希望所有产品爱好者都觉得这很有用,并且这可以作为对数据科学和机器学习领域感兴趣的产品人员的很好的入门读物。我们要感谢 Chinmay 抽出时间在这个博客中捕捉他的想法。

事不宜迟,这里是产品经理数据科学基础的详细信息。

产品经理的数据科学

数据科学正变得无处不在,许多产品试图以一种或另一种形式利用它。尽管该领域在不断发展,但它已不再是一种时尚,并且组织已经在其产品中使用某种形式的数据科学获得了多个成功案例。产品经理,就其角色而言,必须走在了解新技术的前沿,以及新技术如何通过他们构建/管理的产品使最终用户受益。在这篇文章中,我想分享产品经理可以做些什么来理解和加快数据科学和一些关键的机器学习算法,这些算法构成了当今许多引人注目的产品的支柱。

数据科学——简介

简单来说,数据科学意味着使用数据和技术来做出更好的决策

「妙手数评」产品经理的数据科学基础

产品经理应该将数据科学视为一种分析大量数据、从这些数据中提取模式和见解并进行预测以获取业务价值的方法。上图中的关键组件之一是“数据产品”,它处理大量原始数据,从数据中学习/提取模式并为用户提供价值,从而改进业务指标。

许多机器学习算法构成了这些数据产品背后的大脑。机器学习算法可以简单地定义为无需明确编程即可从数据中学习的程序

理解机器学习的一种方法是将其与传统的编程方法进行比较。

  • 在传统的编程方法中,从数据作为输入开始,然后编写一组规则/逻辑作为程序的一部分,并将结果作为输出。
  • 机器学习方法以历史数据和结果为输入,推导出数据和结果之间的逻辑或模式。随后,它会生成一个程序,该程序可以与任何未来的数据一起使用来预测结果。

「妙手数评」产品经理的数据科学基础

机器学习的常见例子:

  1. 推荐引擎——这些算法可以推荐用户可能感兴趣的项目,而无需用户明确搜索它们。建议可以是客户可能想要的产品或他/她想要的电影
  2. 垃圾邮件过滤器(例如 Gmail)——幕后算法处理传入邮件并确定邮件是否为垃圾邮件
  3. 物体检测(例如在自动驾驶汽车中)——使用机器学习算法来识别交通灯、路上的其他车辆、行人等。

数据科学的兴起

一些流行的机器学习算法(在上一节中提到)自 1980 年代就已经存在[1],但是它们仅在过去几年才变得更加突出。让我们了解一些导致这些算法死灰复燃的关键因素:

  • 数据可用性
  • 数据的创建和来源出现了爆炸式增长。

如今,收集的数据比以往任何时候都多:

  • 网络和浏览数据
  • GPS/位置数据
  • 图像和视频
  • 用户生成内容 (UGC)
  • 带有传感器的设备
  • 电子邮件

算法的效率:

  • 随着数据泛滥,现有算法变得更加有效
  • 随着训练数据的增加,结果显着改善
  • 现在也可以将学习从一个应用程序转移到另一个应用程序

降低基础设施成本

  • 按需提供基于云的服务(例如亚马逊网络服务、谷歌云或 Azure)——基础设施的速度、可用性和庞大的规模使得更大胆的算法能够解决更雄心勃勃的问题[3]
  • 除了云上可扩展服务器的可用性之外,许多数据集现在由世界各地的政府和公司开源,提高了数据的可访问性以提供给算法
  • 许多流行的机器学习算法也已向公众开放(开源库/框架),从而被开发者社区广泛采用

PM 的机器学习基础知识

既然我们了解了为什么机器学习算法在过去几年变得突出,让我们深入研究一些流行的机器学习算法类型。

虽然机器学习是一个深入的技术领域,但利用它来创建影响业务的产品或功能所需的许多基础知识与算法的复杂性几乎没有关系。作为产品经理,应该:

  • 非常了解从各个客户接触点收集的数据和数据来源
  • 了解常见的机器学习问题类型——回归和分类
  • 学习将机器学习模型/算法的结果与业务指标联系起来
  • 定义测试标准(例如 A/B 测试)来评估机器学习模型的成功或失败程度

与数据科学团队合作

负责开发基于机器学习的产品的数据科学团队将发现和分析数据,定义问题的特征(特征工程),选择和优化算法,然后将机器学习投入生产以进行进一步测试。

作为产品经理,应该对机器学习模型开发过程有一个很好的掌握。与下图相关的博客链接中提到了了解各个阶段的重要资源

「妙手数评」产品经理的数据科学基础

机器学习逻辑流程

在处理基于机器学习的产品时,还有许多其他事情需要注意。

用数据构建产品需要数据策略

  • 大多数机器学习算法都依赖大量数据来训练模型。产品经理应该深入了解内部产品中数据生成、收集和消耗的所有接触点。
  • 另一个需要考虑的方面是使用数据随着时间的推移在算法上改进产品。

机器学习模型部署

• PM 应与数据科学团队合作,在机器学习模型开发过程的特征工程阶段定义模型的特征或输入。

• 产品经理应该了解模型将如何处理实时数据。应该考虑要开发的任何新 API,以便与生产环境中的机器学习模型进行交互。

• 产品经理需要考虑的一个关键方面是重新训练机器学习模型的频率——无论是每天、每周还是每 X 天都需要仔细考虑。虽然机器学习模型会随着它所训练的数据而随着时​间的推移而改进,但在训练机器学习模型所需的努力和基础设施与其基于数据量(以及数据的新近程度)的性能之间存在权衡是)它已经过培训。

• 机器学习输出变化的速度很重要,这取决于最终用户如何与之交互。例如,在电子商务产品描述页面上,用 2 秒生成推荐的 ML 算法可能比用 20 秒生成推荐的算法更合适。

评估机器学习模型

• 当涉及到数据科学项目以及它们如何适应业务需求时,产品经理应该充当专家翻译。

• PM 还应该培养将机器学习指标(例如准确性、损失)解释为产品指标的技能,反之亦然

• 需要进行客户研究以评估可接受的准确度以及预期的故障情况以及不能容忍的故障情况。

机器学习入门

虽然机器学习领域发展迅速,开发和部署的新算法比以往任何时候都更快,但基本原理仍然保持不变。对于以产品为中心的理解机器学习的方法,我建议如下:

  • Andrew Ng 的机器学习简介是 Coursera 上的在线课程,这是迄今为止深入理解机器学习的最佳起点之一。尽管该课程技术性很强,但它将在未来几年内对您有很大帮助。
  • 深入了解基本机器学习模型及其输出(指标、曲线、分布)。即使您可能不需要了解算法如何工作的复杂性,您也应该了解如何衡量和评估它们的性能指标。
  • 利用 Kaggle 比赛
  • Kaggle 是一个数据科学竞赛平台,公司可以在其中上传他们的数据集和他们试图解决的问题
  • 参与者尝试不同的技术来产生最好的模型
  • 可以探索 Kaggle 上的竞赛以了解机器学习的不同用例,尝试找出机器学习问题的类型
  • *载下** Kaggle 数据集并了解输入特征和目标值的类型