对于一些装腔作势的数据人士,他们称自己为数据科学家,但他们并不掌握对应的技能,本期我们继续公布上期留下的问题,让大家用火眼金睛辨真伪!

1. 如何证明你对一个算法的改进确实比什么都不做更好?
▶答:脱机下,如果改进后的算法可以提高评价指针的值,比如:F1值,AUC等,则说明算法改进后更好。在线下,如果改进后的算法在进行新旧算法的ab Test后带来了比之前更好的结果,则说明算法改进后更好。
2. 你是否熟悉价格优化、价格弹性、库存管理、竞争情报?举例。
▶答:
1)价格优化价格优化是将合适的产品在合适的时间,以合适的价格销售给合适的顾客,并由此使企业在其产品中获得最大限度的收益。
2)价格弹性所谓价格弹性,即是需求量对价格的弹性,则指某一产品价格变动时,该种产品需求量相应变动的灵敏度。例如,为了提高生产者的收入,人们往往对农产品采取提价的办法,对电视机、洗衣机、手表等高级消费品采取降价的办法,就是因为前者弹性小,后者弹性大。
3)库存管理库存管理,是对制造业或服务业生产、经营全过程的各种物品,产成品以及其他资源进行管理和控制,使其储备保持在经济合理的水平上。
4)竞争情报是关于竞争环境、竞争对手、竞争态势和竞争策略的信息和研究。它既是一种过程(对竞争信息的收集和分析过程),也是一种产品(包括由此形成的情报或策略)。
3. "长"数据和"宽"数据有什么不同之处?
▶答:"长"数据: 样本数量多,涵盖单个或几个变项,维度小。"宽"数据: 样本数量不多,涵盖多个变项,维度大。
4. 你用什么方法确定一篇文章(比如报纸上的)中公布的统计数字是错误的或者是为了支持作者观点,而不是关于某主题正确全面的事实信息?
▶答:
1)追本溯源。查找原始数据,核查计算数据的准确性。
2)根据业务知识,判断其数据的真假。
5. 解释Edward ufte"图表垃圾"的概念。
▶答:"图表垃圾"是指在图表或图形中那些多余的无助于用户理解图表的信息,或者会让浏览者分心的视觉元素。
6. 举一个关于网站用户行为分析的例子。
▶答:
1)列出分析指标流量数量指标:浏览量(page view),访问次数,访客数(uv),新访客数,新访客比率。IP流量品质指针:跳出率,平均访问时长,平均访问页数。流量转化指标:转化次数,转化率。
2)主要指标行为定义浏览量:用户每打开一个页面就记录一次,打开多次即累计,pv越多表示页面浏览的越多,是网站表现的基本尺度,是以页面角度衡量载入次数的统计指标。
●访问次数:是以访客角度衡量访问的统计指标,一天时间内,访问次数有可能大于访客数。
●新访客数:作为一个独立访客指标,具有衡量营销活动开发新用户的效果。
●跳出率:只浏览了一个页面便离开了网站的访问,从该指标可以了解访客对网站的兴趣程度;同时也可以看出网络营销的效果,指出有多少访客被网络营销吸引到宣传产品页或网站上,从这个可以看出用户体验是否良好。
●平均访问时长,平均访问页数:衡量使用者对网站的兴趣程度和使用者体验情况。
●转化率:数值越高,表明用户完成了网站运营者期望其完成动作的操作

以上答案不知是否是您心中所想,若您有其他更好的答案,欢迎给我们留言,一起探讨!更多精彩,请继续关注"博易数据"(boyidata)或登入官网!
下期题目预告:
- 你最欣赏哪些资料科学家?有哪些相关创业公司?
- 你会如何筛查异常值?如果发现它会怎样处理?
- 如何使用极值理论、蒙特卡洛模拟或其他数学统计(或别的什么)正确估计非常罕见事件的可能性?
- 推荐引擎是什么?它如何工作?
- 解释什么是假阳性和假阴性。为什么区分它们非常重要?
- 你使用什么工具进行可视化?你对Tableau/R/SAS(用来作图)有何看法?
往期回顾:
「如何辨别真伪数据科学家·二」纯干货,喂饱你!
「如何辨别真伪数据科学家·一」数据“狮”是怎样炼成的?

#大数据 #数据分析师