「如何辨别真伪数据科学家·三」火眼金睛辨真伪

对于一些装腔作势的数据人士,他们称自己为数据科学家,但他们并不掌握对应的技能,本期我们继续公布上期留下的问题,让大家用火眼金睛辨真伪!

科学帮你辨真伪,真假数据鉴定方法

1. 如何证明你对一个算法的改进确实比什么都不做更好?

▶答:脱机下,如果改进后的算法可以提高评价指针的值,比如:F1值,AUC等,则说明算法改进后更好。在线下,如果改进后的算法在进行新旧算法的ab Test后带来了比之前更好的结果,则说明算法改进后更好。

2. 你是否熟悉价格优化、价格弹性、库存管理、竞争情报?举例。

▶答

1)价格优化价格优化是将合适的产品在合适的时间,以合适的价格销售给合适的顾客,并由此使企业在其产品中获得最大限度的收益。

2)价格弹性所谓价格弹性,即是需求量对价格的弹性,则指某一产品价格变动时,该种产品需求量相应变动的灵敏度。例如,为了提高生产者的收入,人们往往对农产品采取提价的办法,对电视机、洗衣机、手表等高级消费品采取降价的办法,就是因为前者弹性小,后者弹性大。

3)库存管理库存管理,是对制造业或服务业生产、经营全过程的各种物品,产成品以及其他资源进行管理和控制,使其储备保持在经济合理的水平上。

4)竞争情报是关于竞争环境、竞争对手、竞争态势和竞争策略的信息和研究。它既是一种过程(对竞争信息的收集和分析过程),也是一种产品(包括由此形成的情报或策略)。

3. "长"数据和"宽"数据有什么不同之处?

答:"长"数据: 样本数量多,涵盖单个或几个变项,维度小。"宽"数据: 样本数量不多,涵盖多个变项,维度大。

4. 你用什么方法确定一篇文章(比如报纸上的)中公布的统计数字是错误的或者是为了支持作者观点,而不是关于某主题正确全面的事实信息?

▶答

1)追本溯源。查找原始数据,核查计算数据的准确性。

2)根据业务知识,判断其数据的真假。

5. 解释Edward ufte"图表垃圾"的概念。

▶答:"图表垃圾"是指在图表或图形中那些多余的无助于用户理解图表的信息,或者会让浏览者分心的视觉元素。

6. 举一个关于网站用户行为分析的例子。

▶答

1)列出分析指标流量数量指标:浏览量(page view),访问次数,访客数(uv),新访客数,新访客比率。IP流量品质指针:跳出率,平均访问时长,平均访问页数。流量转化指标:转化次数,转化率。

2)主要指标行为定义浏览量:用户每打开一个页面就记录一次,打开多次即累计,pv越多表示页面浏览的越多,是网站表现的基本尺度,是以页面角度衡量载入次数的统计指标。

访问次数:是以访客角度衡量访问的统计指标,一天时间内,访问次数有可能大于访客数。

新访客数:作为一个独立访客指标,具有衡量营销活动开发新用户的效果。

跳出率:只浏览了一个页面便离开了网站的访问,从该指标可以了解访客对网站的兴趣程度;同时也可以看出网络营销的效果,指出有多少访客被网络营销吸引到宣传产品页或网站上,从这个可以看出用户体验是否良好。

平均访问时长,平均访问页数:衡量使用者对网站的兴趣程度和使用者体验情况。

转化率:数值越高,表明用户完成了网站运营者期望其完成动作的操作

科学帮你辨真伪,真假数据鉴定方法

以上答案不知是否是您心中所想,若您有其他更好的答案,欢迎给我们留言,一起探讨!更多精彩,请继续关注"博易数据"(boyidata)或登入官网!

下期题目预告:

  1. 你最欣赏哪些资料科学家?有哪些相关创业公司?
  2. 你会如何筛查异常值?如果发现它会怎样处理?
  3. 如何使用极值理论、蒙特卡洛模拟或其他数学统计(或别的什么)正确估计非常罕见事件的可能性?
  4. 推荐引擎是什么?它如何工作?
  5. 解释什么是假阳性和假阴性。为什么区分它们非常重要?
  6. 你使用什么工具进行可视化?你对Tableau/R/SAS(用来作图)有何看法?

往期回顾:

「如何辨别真伪数据科学家·二」纯干货,喂饱你!

「如何辨别真伪数据科学家·一」数据“狮”是怎样炼成的?

科学帮你辨真伪,真假数据鉴定方法

#大数据 #数据分析师