拼多多2020届数据分析面试题总共分为学霸批、寻梦批、正式批三批,面试题合集并没有按照批次进行整理,毕竟也没啥规律可循。
本人参加的是寻梦批的现场面,真实见闻是分三面,两面技术一面hr,可能由于人员安排原因,hr面并不都放在最后一面,且不是所有人都有三面,有同学面了一面结束的,也有面了两面结束的。
另外面试题具体是业务题多一点还是机器学习等题目多一点,这个也不太好说,主观上是与你的简历或者面试官相关。
不叭叭了,以下是从牛客给大家整理的多多的面试题,再次谢谢各位在牛客上给下一届的同学留下面经的同学,祝大家工作顺利,一切都好。
01
作者:cushion+_+ 来源:牛客网
拼多多 共三面 (8.18号)
一面技术:35min
自我介绍
两份实习分别做了什么,有啥区别?
airflow配置任务依赖关系
Linux掌握怎么样
Python问题
归因分析怎么做?
异常分析怎么做?case
异常分析实时解决方案
广告ssp平台数据报表建设的考虑?
实习公司常用的指标体系
检查一下你笔试的SQL 哪里错了你改改..
随机取10条数据,如何实现?
手撕两道SQL
给个表,uid app类型 app,你觉得如果这个表扩展,还需要哪些指标。你能用这些数做什么?
给几个词,你觉得哪个和你最贴切?-细心
常用的app?
怎么看待网易云音乐被下架?我说我不知道,为啥啊。
面试官说那换一个问,你觉得网易云音乐最吸引你的地方是什么?
网易云音乐有什么拼多多可以借鉴的地方?
问面试官:部门?评价?业务答案空洞是指?(--缺少细节)
二面HR:10min
自我介绍
考研还是保研
找工作意向城市?
缺点?
第一份实习为什么选数据分析?
实习不能转正吗?
同学中有拿offer的吗
家里几个孩子
对薪资的要求
三面技术:40min
自我介绍
实习业务
实习部门最关注的指标
获客,你最关注什么?
手撕SQL -取众数,四分位数
问面试官10个问题,逻辑推理,猪的死因?
双十一过后,成交量下降,如何分析?
有什么要问我的?-部门,评价,四分位数SQL,如何定岗?
02
作者:求offer哇~ 来源:牛客网
一面(30min)
1.专车分析时最重要的指标?可比性指标?
2.SQL题
3.GMV下降怎么分析
4.A/B test怎么设计
5.从北京到上海,如何去
6.假设检验,z检验、t检验、卡方检验等
二面(30min)
1.淘宝网项目指标选取
2.专车流量的核心指标,怎么分析
3.如何量化对购物车的需求
4.SQL题,这个SQL题有点难,用自连接可以做
HR面
1.独生子女,家庭情况
2.期望薪资,工作地点
3.三份实习的不同之处
感觉拼多多认为大概率在北京上学且家在北方的大概率不会去上海。。。所以HR面的时候还是要注意一下。。
03
作者:Offer+++2019WWW 来源:牛客网
一面 约1h 10min
自我介绍
聊简历项目
一道sql题目 如何找出每一个级别下面购买最多的十个用户,应该用窗口函数的,但我忘了,用了个group by 错了
一道业务题,AB TEST
一道概率题,三变量贝叶斯公式,就写了一下思路,不知道对不对
二面 40min
方式:远程 语音+电话 时间:周末傍晚
自我介绍
聊简历项目,聊细节;
期间问了分类算法的区别,经典算法与深度学习的不同。回答的很不好,不会回答这种问题,区别很多...
你认为一个数据挖掘或数据分析的流程是怎样的,有什么需要注意的重点?
场景题:1.上海有多少量公交车?说思路
2.估算未来一段时间里某地铁口的进站量和出站量
智力题:博弈取球问题,箱子里有100个球,每个球有1-100的编码。两个人轮流从箱子中取球,每次只能取1,2,3或4个。取到最后编号为100的球的人赢。问想要赢应该先取还是后取?
这个问题当时答错了,倒着推又有点紧张绕晕了。面试官让下去再梳理一下,写个答案发给他。面试就结束了...也没有例行的你有什么问题吗? 然后就重新找了规律,应该是后取的人赢,发给了面试老师。
三面 时长:14min
方式:直接电话 时间:中秋前一天
时隔19天,赶在中秋假期前进行了hr面。
中午11点多,正走在路上,021的电话打来,hr直接问有没有空聊半个小时,于是找了个路边的椅子坐下来。
学习成绩,专业排名
家庭情况,求职意向地,家里人意见
最有成就感的一件事情(这个问题回答得很不好了,我习惯纵观总体回答,不喜欢把生活划分成最有成就感或者最失败,选择,努力,生活进行下去。但hr想听的是一件具体的事情,我们绕了一会儿才按照他想要的去回答♀️)
成就感的事情详细介绍,为什么?你是怎么做的才让最后有这样的成就感。
意向薪资,答普遍水平就好,问普遍水平是什么价位?就...随便说了一个,没有很有概念。
为什么选择拼多多?也是随便答了一下,就说了一两句,应该多说一点的。
手头有没有其他的offer或者进行中的?拼多多会在意向offer中排第几?
最后问有没有什么想问的?我暂时实在想不起啦要问一下什么了。(*/ω\*)
在又热又晒的正午马路上面完了,思绪比较混乱,感觉自己回答得非常仓促,路边还有些吵,有的地方估计也没说清楚,很多问题都能够回答得更好的。
面试官小哥很从容,我回答得含糊或者绕来绕去,他也很有耐心地提醒我,非常感谢
04
作者:LunaMYX 来源:牛客网
提前批(学霸批)收到意向书已拒,听说最近正式批刚笔试完,回忆面经回馈牛客攒人品
timeline:7.28 笔试 -> 8.2 通知笔试通过 -> 8.7 一面 -> 8.12 二面 -> 8.15 HR面 -> 9.6 收到意向书
一面(44min):微信语音 + codeshare
1. 简历,做过的实习,项目
2. 写了几个SQL,比较简单,然后问了一个比较tricky的:取每月最后一天的最后三笔订单且代码需要可复现(tricky点在于如何找每月最后一天)
3. 问我有没有刷过算法题,我说没有,于是问一个简单的小问题,如果A到Z分别是1-26,AA是27,AB是28……给一串字符怎么转化成数字,说思路不需要写(26进制)
4. 好像还问了几个简单的概率,记不清了
5. 业务题,如果有一个活动,产生了很多GMV,如何在各个部门之间分配这些GMV
6. 如何判断异常订单,写建变量的思路(我的回答照搬了fraud analytics的project)
备注:面试官应该是可以看到笔试成绩或者答案,当时有说笔试写的不错什么的
二面(53min):微信视频 + codeshare
1. 简历(拼多多的申请系统很奇怪,这个面试官还有后面的HR面试官都看不到我的最近一段实习经历
2. 问了一个很绕的SQL,用户登录的log数据,划定session,同一个用户两个小时之内的登录算一个session,需要多次self join,差点把自己绕晕了(面试官吐槽我没有缩进没法看)
3. 两个SQL小点(1)对于有null的数据取average分母是不计数null的(2)join on 中带筛选条件和 join 之后 where 的区别
4. 业务题,如果有两个平行的活动,一个GMV比另一个低,如何分析原因
5. 让我讲了一下简历一个最优化的项目,问具体code,我就把当时的code复制给他并讲解了一下
HR面:电话 20min
1. 简历
2. 会什么数据分析工具
3. 实习中难忘经历
4. 实习中的困难
5. 未来职业规划
6. 哪里人,有没有男女朋友,为什么计划来上海
7. 期望薪资
8. 三个词形容自己
9. 爱好(还有一些琐碎的问题)
05
作者:heynicole 来源:牛客网
一面(1h)
1.常规的自我介绍
2.面试官根据我的简历开始让我手撕代码(之前看了牛客的面经,以为都是手撕SQL,没想到手撕Python了),自己写一段计算tf_idf的代码(用的for循环,复杂度很高,面试官很和善,说ok)
3.问了一下简历的内容(包括AB Test、模型评估、项目细节等等)
4.我看你简历上数据挖掘的项目挺多,为啥来数据分析了?(我回答的数据分析和挖掘关联性很强啊,不可分割啊啥的)
5.你有什么想问的?(我问了一下对新人的培养方案和对我的评价哈哈)
回到等候室,立马叫去二面了
二面(45min)
1.常规的自我介绍
2.手撕算法题(我面的不是数据分析吗?求求你们让我写SQL啊TAT)
难度大约在Leetcode中等难度,我给出一个时间复杂度N2的解法,但是面试官说有更快的解法,用动态规划,我想了半天也没想出来(自从放弃投算法岗之后真的没怎么看这些了)
3.Xgboost、GBDT、RF的不同(可能因为简历里提到过)准备了一堆业务问题的我其实是有点懵的,对这三者的不同粗略答了一下Boosting 和 Bagging
4.Xgboost比GBDT好在哪?只答出来并行与二阶导
5.ID3和C4.5的不同?信息增益和信息增益率;除了这俩还有啥不同?emmmmmm,名字不同吗?(确实这一块研究的不深)
6.写一下信息增益和信息增益率吧?写出来了
7.SVM知道吗?
我:首先,SVM是寻找间隔最大的分离超平面,...(面试官:好了,写一下SVM的超平面公式和目标函数和求解方法)
我:(我真的不是在面算法吗?)那就写吧,目标函数写的磕磕盼盼,还有约束条件啥的,加上有点紧张,在面试官的引导下写的也只是七七八八(其实是很基础的东西)
8.你还有什么问题?
我:咋这么偏算法?面试官:我是广告搜索部的,所以平时数据算***比较多一点
回到等候室,立马叫去hr面
hr面(30分钟)
1.前面感觉怎么样?感觉二面自己不是很满意
2.加班可以吗?ok
3.薪资呢?我在网上看到差不多是balabala这个价
4.单身吗? 和女朋友都规划在上海工作
5.说出三个自己的优势?我:1... 2... 3...
6.有几个offer?0,不过很多面试都在过程中
7.聊一聊你心中的拼多多?砍价活动真香!BALABALA(舔就完事了)
8.你有什么想问的?(hr说他是从阿里跳过来的)拼多多和阿里技术哪个好?面试官说阿里技术沉淀在那,拼多多肯定不能比,但是拼多多的成长是很快的,在这里可以学到很多东西。
06
作者:yuriko33 来源:牛客网
一面(9.10远程,50min)
介绍一个主导的项目(不断challenge)
实习公司产品的指标体系
DAU、MAU之间的关系,与留存率、活跃度的关系
灰度上线是怎么操作的(如何投放、样本如何选择etc.)
一道sql:连续三天留存
是否有sql语法正确但是很久跑不出来的情况?以刚刚这道题为例,如何优化sql运作效率?
一道python:文本处理
思考题:房间里有100个人 每个人手上有100块 每次随机给别人1块 房间里最后的财富分布(这里卡了很久很久,面试官最后提示不要用数学推导的思路走,而是做蒙特卡洛模拟实验)
现在投了哪些地方,对base有什么要求
之前有咨询数据分析的经历,为什么现在选择互联网产品数据分析?有什么不同?
Q:pdd数据分析偏业务还是技术?
A:主要有三种:数据中台、业务分析、算法
二面(9.11远程,50min)
总体来说也是挖项目,根据提到的关键词会穿插一些小问题,如各类假设检验的使用场景、项目中缺失值如何处理等
一道sql+分析题:
数据表:省份-年份-GDP
1)求近十年每一年GDP增长率前十的省份
2)假设需要的数据都有,如何分析为什么这些省份增长最快
hr面(9.20远程,13min)
常规问题
自我介绍
作为广东人接受出省吗?想来上海吗?
有没有男朋友?
为什么想来拼多多,怎么看拼多多?
有其他offer吗?
对薪资有什么要求(hr说不影响录取,只是听一下同学的心理预期)
工作时间接受吗?(hr说统一规定是早11晚8,周六休息周天上班)
最后说结果两到三周出,10月底才谈薪资
07
作者:~微澜...... 来源:牛客网
一面: 时间在8月16日下午2点,电话面试
1.首先做一个简单的自我介绍。
2.在上一家实习主要做的事情,按照做的事情和简历上的点,每一条细挖,做报表的目的是什么?可视化展示要达到的效果什么?爬虫有反爬措施时,数据分析怎么分析的?
3.做的招行的fintech比赛(简历上的),解释下smote方法原理,比较下决策树,随机森林,xgboost的原理有什么不同?数据量多大,数据字段分别有哪些?是怎么进行数据预处理的?特征工程这一块是如何做的?最后是怎么来判断模型训练效果的?
4.就最近做的产品数据分析经历,拿一个项目介绍一下,主要做的是什么?如何判断指标的异常值?怎么找到数据分析的核心指标?
5.介绍下研究生方向做的课题研究,为什么用这种方法做?解决了什么问题?
6.口述一道sql题,比较easy,有两家单车公司,表里存放的是每天某个时刻投放在某个城市的单车量,尝试寻找按天颗粒度这个城市两家公司投放单车量的拐点(即相等值)时间。
7.你还有其他问题想问我的嘛?
问了数据分析部门,面试官说,类似于阿里的架构,有风控,不同的业务线,具体去哪个部门后面会有hr介绍。
一到两周内出面试结果。
二面: 时间在8月22日下午3点,微信电话面试,
主要内容:
面试官先自我介绍,搜索团队,基于用户和商品匹配,但是不是纯算法,偏于业务得到的结论
1.简单的自我介绍;
2.在鹅厂的实习,一个多月,主要做的事情是什么?
3.留存分析,***分析是怎么做的?to b还是to c?你根据什么依据认为你的次日留存率低?有没有落地?
4.招行的fintech竞赛(特别细,感觉这个部门偏算法)
先简单介绍下背景;问题是什么?用户有没有买某一批商品还是某一个商品?
特征字段总共有多少个?数据量多少?进行特征工程处理后的字段大概有多少个?除了one-hot、连续值离散化,有没有其他类似于构造特征的方法?构造特征是怎么构造的?
采用逻辑回归、随机森林、xgboost方法是基于所有的特征嘛?对模型进行评分的指标是什么?召回率的定义;召回率、准确率和精确率的区别;
5.从你的实习经历看来,你既有偏于业务层面的实习,也有偏于技术层面的实习经历,谈谈你对技术和业务的理解;
我回答说技术最终服务于业务决策,为业务服务,举例子在业务实习中,我也会采用聚类算法技术建模分析进行用户分群。
6.做了两道sql,一道是留存率计算,自己提前批笔试中没有写的,另一道比较简单,但是会忽略条件犯错:
两张表,用户订单表(tbl_ordr)及用户商品点击明细表(tbl_clk),假设都仅有只有某一天的数据,请根据以下描述写出对应的sql代码
1).用户在点击某个商品之后产生的订单算作这次点击产生的订单(要求点击及创建订单行为是同一用户操作的,且点击的商品和订单商品是同一商品)
2).如果同一用户多次点击相同商品,并最终产生订单,则订单归属到订单创建前的最后一次点击上
3).输出有产生订单的商品点击及点击产生的订单号(clk_id,ordr_id)(用sql实现)
用户订单表字段为:用户id,订单号id(ordr_id),订单商品id,order_time预订时间
商品点击明细表字段为:点击id(clk_id),用户id,clk_time点击时间,点击的商品id
思路是首先根据用户id和商品id将用户订单表左连接商品点击明细表,然后group by 字段用户id,商品id求max(clk_time点击时间)对应的clk_id
这时面试官很亲切的提醒了一句:如果有个客户点击了某个商品点击了5次,但他在第3次点击后就购买了该商品,那我这样取数会把点击id错取为第5次,这时我赶紧反应过来说在left join之后加一层where判断,where clk_time点击时间<order_time预订时间,面试官说OK就过了。
7.你还有其他问题想问我的嘛?
最后面试官又介绍了下搜索部门
结束一个半小时后收到了面试官关于搜索部门介绍的微信消息,听说可能会有下一面......
HR面:
时间在9月5日早上10点,电话面试,主要内容:
1.知道你报的是拼多多什么岗位吗?
2.你为什么报拼多多?
3.你为什么想来上海?为什么选择上海?
3.你的本硕专业都与这个无关,为什么要报数据分析这个岗位?
4.你认为数据分析岗如何在拼多多这个企业里发挥作用?
5.你还投了其他企业吗?有其他正在进程中的面试吗?
6.你认为自己相对于别人来说,突出的3个优点和3个缺点?
这个问题想的太久了,而且还是3个缺点
7.你理想中的薪酬大概是多少?
8.你是明年6月份毕业,这期间你有时间过来实习吗?
08
作者:可可粥 来源:牛客网
9.2 更新
今天收到HR的电话 大概就说了下base作息什么的能不能接受 有没有男朋友 gap year在干嘛 还有薪资什么的 大概就3-5分钟 应该这个不算面试吧 感觉也没什么用但是至少知道还没凉透?2333
都是远程面试,两次化了妆都没看到面试官的脸又默默卸了……
周三一面 面试官超级nice
自我介绍 因为我金融本科 只有金融行业的实习 面试官问了问就是数据分析和在金融机构做行业研究的区别在哪
然后问了下简历上写的项目
问了一道sql相关的题 大概是说用了group by做提取的时候有时候到进度条最后会卡住 问原因 一开始没回答上来 面试官特别耐心给了点提示 最后我说大概就是先group by两个字段之后再汇总的方法吧 面试官可能觉得可行?这块就结束了
后来还问了下还熟悉什么模型 我就说了几个课上学的 也没深说就提了一下其实 面试官还说挺好的233
一面面试官真的超nice 说什么他都会肯定你哈哈哈
周日二面
自我介绍
介绍项目again
看了下我笔试时候一道没拿满分的sql题 (从这里开始交流就非常困难 他说话我觉得很迷很难理解……)
问我怎么没有相关实习(这里已经感到凉了233)
又发了一个网站做一道sql题 其实就是第一批笔试的第三题 但是我只做出来一半 然后还用了蛮久的……(然后就全凉了)
最后结束就是面试官在吐槽我时间用得久 一直说“时间关系”什么什么 然后就说没什么要问的了 感谢参加面试
感觉二面的面试官就是全程都很冷漠 然后我们交流还特别困难 悲剧.jpg,然后今天周一看到官网已经是“已结束”了
09
作者:bellz 来源:牛客网
一面
1. 自我介绍
2. 看你实习经历有写,说说对埋点的理解
3. 实习经历
4. SQL题:
1) 有访问记录表A,订单表B,查看下单前最后一次访问记录
2) 如果想要看下单前5次访问记录呢
3) 能不能把第二问的结果5行变一行?(不会……是不是用某个函数+over()开窗呀)
5. 估算上海垃圾桶数量:
假设垃圾都会被当天处理,那么垃圾桶数量=垃圾站数量*平均垃圾车数*平均每天趟数*垃圾车容量 / 垃圾桶容积
对了,还假设不需要垃圾分类hhh
6. 根据消费者购买流程,设计核心业务流程的指标体系,(因为我说的太多)选最重要的三个怎么选:
商品到购买的转化率,退货率,GMV
后知后觉地说,退货率有那么重要吗……
7. 对数据分析师的理解
二面
晚上9点开始,历时一小时的高强度互动,难顶……
1.自我介绍
2.说说实验室的算法项目,为什么用f1不用auc,对auc的理解
3.实习项目做了什么
4.SQL题,挺难的,但是很落地,是平时工作会遇到的场景
5.数学题。(原题不能泄露,于是我抽象成硬币的问题)一枚硬币扔20次,出现15次正面,你觉得这枚硬币不均匀吗?
答:多次试验,假设检验?
问:只凭这一个事实呢?
答:极大似然估计奥
6.看你实验室做算法,对算法更感兴趣吗?
10
作者:cilla0205 来源:牛客网
1.sql 找近90.30.7天的登录人数,不能用union
2.如何判断异常值,如果有大规模订单涌入如何判断是否是正常增长
3.订单业务场景,如何建立异常值示警体系,比如哪些指标有异常会认为有刷单现象
4.找的指标有线性相关性,有的对label实际影响不大,如果给你一堆数据带有label如何确认这些指标是否真的影响label的值
5.如果不用回归,不做回归系数的检验,如何判断这些指标是否相关
6.协方差公式是什么
7.机器学习知道吗,写一下逻辑回归的全部过程
8.决策树,信息增益,基尼系数越大越好还是越小越好,为什么现在用信息增益率不用信息增益
9.如何去线性相关,答因子分析和主成分,于是让说明这俩是什么并写因子分析全过程
好像还有些,不太记得了,我可能是现场面唯几没走完流程的吧…说起来就十分伤心…
11
作者:诸葛钢管 来源:牛客网
看了很多面经,感觉面试内容其实很看面试官,不同的人问题就不太一样。。
一面 主要的问题
1. 问项目,主要了解项目内容,没怎么细问
2. 项目涉及到了python,喔我们来做道题吧。。。(不会 问了提示也没做出来。。。最后面试官还安慰我说这对于数据分析来说要求可能算高了,我们还是来说说别的吧。。)
3. svm核函数,rbf干嘛的
4. 又问项目,你咋用xxx完成xxx的,然后聚类的个数咋决定的
5. 还有啥聚类、降维的方法,讲讲看
6. rf,gbdt区别,知道lgbm吗(不知道。。)
7. count(1) count(*) 啥区别
8. t分布、f分布、正态分布
9. 独立同分布
【8.19更新】二面
以为是视频面试的,结果是电话。。妆都化好了。。
*发现秋招以来选择视频的都是男面试官,选择电话的都是女面试官hhh
1. 围绕简历项目(30分钟),主要是以了解内容为主(包括模型干嘛的,这个评判指标是什么意思,为什么要用它),其中一个涉及到网站的公司还问了指标体系怎么建
2. sql不难,join一join或者开窗都行的那种
3. 井盖题(看隔壁面经)。。没答好。。还把面试官逗笑了。。。QAQ
*两轮下来感觉pdd的面试官都很好,虽然都是北京时间晚上***点面试还是挺耐心、挺温柔的哈哈哈~ 行吧,我去吃早饭然后微博转锦鲤去了。。
【9.5更新】 暴躁等待的17天之后,HR终于来找我聊天了!!
12
作者:liunian789 来源:牛客网
8.17上海现场面试 面试顺序:HR --一面 --》二面
1 HR面
1.自我介绍
2.想去什么类型的公司
3.期望什么样的工作
4.是否接受调岗
5.期望的薪资
6.是否接受PDD的工作时间
7.父母的工作
8.职业规划
2 一面
1.一道SQL(窗口函数)
2.k均值的k怎么定
3.怎么去评判一个模型的优劣
4.现在实习的工作内容
5.你对数据分析这项工作的理解
6.假如xx店在xx市要搞活动,要怎么去定发短信的策略
7.随机森林原理详解
8.ROC AUC
3 二面
1.一道排序题
2.k均值的实现过程(要求一步步详解)
3.其他聚类算法
4.随机森林原理
5.XgBoost & GBDT
6.AB Test 原理
7.其他记不得了。。
13
作者:一只超越小白 来源:牛客网
8.24两轮技术面一轮HR面
第一轮技术面:
1)求圆内接三角形过圆心的概率2)把笔试的概率题中无放回改成有放回重新算写了三道SQL题,然后聊了聊机器学习
第二轮技术面:
自我介绍后直接写两道SQL题,开窗函数还是很重要的。
1)有一张表,两列分别是车的颜色和故障率,得出结论黄色车故障率高,问对这个结论有什么看法,如果让你来做会怎么做
2)猪怎么死的,类似于破案找原因,只能问十个问题关于客观事实的
最后一轮HR面 就是常规的HR问题
14
作者:迹Rachel 来源:牛客网
8.17 上海现场面 1面
介绍决策树(ID3和C4.5的区别,熵的原理,为什么选取特征后熵总是减少的)
手写文本的熵的代码(python)
你想做一个什么项目,过程,指标呈现
用三个词形容你的性格并举例
数据分析要做哪些工作
数据分析要怎么分配一天的工作
2面
SQL
然后就是概率题
比较两个样本的差异(比如中国和日本的学历差异)
智力题:一架飞机,加满油可以飞地球半圈,但是可以把自己的油给别的飞机,飞机需要返回机场,问至少需要多少架飞机,可以使一架飞机飞完地球一圈?
hr面
工作意愿
在面哪些公司
想找什么类型的公司
了解拼多多么
加班情况了解么
期望薪资
15
作者:一咸鱼 来源:牛客网
一面50分钟左右 算法部门的一个小哥哥面的
自我介绍
认为数据分析师工作职责分为哪几块
两个项目细挖,我提到了kmeans中数据标准化,然后对这个继续讨论了下
知道udf吗(不知道)
除了pca还有什么降纬算法
讲讲spark
什么情况不适合用mapreduce
看我简历上写了本科学过数据库和数理统计,就针对这提问了
大数定理,卡放分布,t分布,正态分布(说不记得之后,面试官苦笑说感觉如果是国内本硕的话这些基础都很扎实,出国的话普遍比较自信,然后我就说数理统计的话我t检验,f检验啥的用的比较多,接下来就问了)
t检验和f检验
数据库范式
手写了一个判断是否是子集的算法,最后要去重(面试官安慰我说不用考虑复杂度什么的,那是面算法考虑的)
问了你想作数据分析的什么方向,我说机器学习,接下来就问了几个机器学习的问题
gbdt和rf区别
gbdt和lgbm区别
svm核函数有哪些
你有什么要问我的(为啥算法的来面我,他说算法团队也需要数据分析师,就来面了)
然后跟我讲了下他们用udf来干什么
感受:问的很广,但是除了项目外问的问题我回答之后都没有继续往深了问,可能是因为毕竟我不是面算法的,所以问的比较浅
二面50分钟左右
商业分析部的一个小姐姐来面试的(我先不知道是商业分析部的)
自我介绍
问我一个男生为什么会选择数据分析
谈了实习和一个项目(主要问了流程和项目目的)
618后拼多多成交量下降,分析原因并说明需要用哪些数据作支撑
两个sql写出来一个,第二个没写完,说了下大致思路(表的列包括时间,店铺类别,店铺数量,gmv)
拼多多618前后一周内各店铺类别gmv的日均提升幅度和比例;
在618前一周gmv top20%,20-40%等这5类商铺在618后一周内gmv日均提升幅度和比例
估计上海上空下午1-3点飞过的飞机数量
问她的问题
拼多多到底有多少部门要数据分析师?答因为拼多多在发展,所以很多部门都需要这个岗的人,所以来给你面试的都属于不同的部门
那最后怎么定岗?答面试官和求职者的双向选择
感受:考察sql能力和商业sense
三面hr面
20分钟左右
自我介绍,期望薪资,手上有几个offer,工作地点,对拼多多的了解,认可拼多多的作息时间吗等这些常规问题
16
作者:蛋麦 来源:牛客网
现场三轮流程走完,感觉没那么差但也没那么好,只是跟预期有点差别。
回馈一份面筋,祝各位想进pdd的朋友们好运。
因为我没有实习经历,所以技术面主要是问项目,以及感觉pdd很重视SQL
一面技术(50分钟左右)
自我介绍
看简历,问了两个项目,先是问了我的一个项目,然后可能因为我项目经历比较多,所以他让我自己再挑一个项目讲讲……
项目问了为什么用k-means,k类怎么确定的,如何评价聚类效果,原始数据是什么样的(因为我那个是和商家合作直接获得的数据),得到结果之后怎么给商家应用,然后从项目本身拓展成了情景题,问我如果商家后续又提出了哪些哪些要求,我会怎么做……
认为自己做数据分析的优势和劣势。
一道SQL,用到了lead()开窗和case when,面试官说总体思路做对了,帮我修改了细节错误。
有啥想问的。我问了岗位职责,以及“看面经总觉得拼多多数分需要技能树全开”的困惑,面试官回答说因为招聘期有时候协调不过来就会让算法部门的人来面试数分,他们问的会偏算法,所以面经会给人那种印象。而且一面面试官认为数据分析其实没有偏业务还是偏技术那么一说,给小哥哥点赞。
感受:一面面试官很有耐心,很多问题他问了一遍之后会继续做出详细的解释,个人认为问题价值也很高,尤其是基于项目拓展出来的几个问题很有针对性,也很符合个人预期想做的事情,虽然我可能答得不够全面orz
二面技术(50分钟左右)
自我介绍
二面面试官是比较注重业务和技术的区别的,自我介绍完之后就直接问我是倾向于业务还是技术,我说业务,他好像挺惊讶的,可能因为我过去项目里做算法写代码的比较多,但其实我专业是管理类的来着,虽然数学/算法学的多但是自认为技术不如科班……
看简历,问了一个之前没讲到项目,项目偏NLP,是我本科做的,太久远了特别细节的地方真不记得,被问到的时候我就坦言不记得了,面试官也笑了。
特别问了会不会SQL,我说学过数据库课程但是实践写SQL比较少,然后问学过哪些课程。
两题SQL,第一题表连接,第二题输出每周都有销量的商家,我的where条件考虑不全,面试官提醒了我,但我还是没答出他想要的答案。然后他安慰说可以理解,毕竟我平常都是在学校写python没怎么写过SQL(结果关于python或者算法的两个技术面一点都没问orz)
然后问了一个情景题,这题答得是个人目前面试经历里最尴尬的,因为完全没有理解他问的意思,其实是一些基于业务的描述性统计问题(真的只需要描述),是我想的太复杂了,是真没想到会问那么基础,全程一脸懵。
有啥想问的。问了数分岗位的职业规划,比如最初做基础的支持,那几年以后怎么提升,面试官笼统说逐渐从基础转向更高层的支持,我其实就想问pdd数分目前有没有哪些更高层的支持业务(因为这轮面试感觉是去做提数机的orz),但是没好意思追问下去。
感受:二面凉凉,没有实习的劣势暴露出来了。拼多多的SQL题确实很令人深省,通过笔试发现了自己在开窗函数上的不足,通过面试发现自己还要在SQL业务逻辑上多下功夫。虽然不想做提数机但是最基础的确实要熟练啊。
三面HR(20多分钟)
自我介绍,限时1分钟。
户口,有没有对象,为啥想来上海之类的
目前投了哪些单位,有没有offer
保研还是考研,本科专业和硕士专业的区别,成绩排名
为什么没有实习(导师不允许……)
找工作比较在意哪些因素
对拼多多的了解
前两轮面试感觉怎么样,经过面试之后还想来拼多多吗之类的
能接受作息时间吗(上午11点打卡,通常晚上8点下班,大促期间可能要到10点,单休)
有啥想问的。
HR说会在2-3周内出结果。
感觉会凉在二面,不过面试本来就是为了看彼此合不合适嘛,所以平常心+继续努力就好。感谢几位面试官的帮助,我写完面筋就继续练SQL了~
17
作者:-offer会有的!- 来源:牛客网
一面:hr面 不到20分钟
1. 意向城市
2.男朋友行业,未来发展城市
3.家里人对未来工作城市的看法
4.现在已经拿到的offer,在面试流程中的公司
5.在现在实习的公司最大的感受
6.现在的实习能不能转正
7.讲一个实习中印象最深刻的项目
8.你在这个项目中最大的挑战
9.现在回顾这个项目,你觉得有什么可以改进吗
10.领导总是让你做你不喜欢做的事情,你会怎么办
11.对拼多多的了解
12.讲一个你性格中的优点和缺点13理想薪资
二面:业务面 30分钟左右
1.自我介绍
2.为什么觉得自己逻辑能力和学习能力强,举例论证
3.你认为机器学习在数据分析中起到什么样的作用
4.聊了一下最近一次实习的项目
5.项目中的特征怎么选取的
6.讲一下假设检验(这里我展开太多了,写了各个统计量的计算公式,不是面试官想要的答案)
7.假设检验的应用场景
8.因果和相关的区别
9.一个天平和七个砝码,其中五个一样重,另外两个稍轻,问把这两个轻的找出来,最快需要称几次
(这个问题回来跟同学商量了一下,暂时还没有找到公认的最佳方法,同学提到的方法如下,供参考,欢迎讨论)
砝码分成3-3-1,三个三个称一次。
1.如果两边一样重,则两边各有一个轻的,每三个中再挑两个称,找到答案。共3次。
2.如果两边砝码不一样重,挑出轻的那一份,从中选取两个进行比较。
①如果两个一样重,拿出第一次称的重的那3个中的一个,与这两个中的一个比较。
如果一样重,则剩下没称的2个是轻的;
如果不一样重,那么刚刚称的一样重的两个是轻的。共3次。
②如果不一样重,则找出一个轻的;再称一下剩下的两个谁轻谁重,得出答案。共3次。
最后是一个开放性的题:我现在有一个问题,需要你找出原因,接下来你可以问我问题,我会回答你的提问,最后你要告诉我正确答案。问题是,猪死了,为什么。
(这个阶段我答得非常不好,问了两三个之后,面试官设定我可以问的问题上限为10个。这里想考察思考问题的框架,我问的前几个问题都没有在点子上,到最后快到上限了才开始问地点,回来想了一下,应该先问时间、地点、猪的数量、周围环境,如果分析得当,5个左右的问题就可以问到关键点)
三面:业务面,偏技术 50分钟
1. 自我介绍
2. 数据挖掘项目介绍(这里追问的比较细,包括为什么这样定目标,为什么要做分类,样本是什么,样本量多少,为什么不采用另一种方式取特征,预测的时间范围,最后效果如何,如何在业务上验证有效而不是在验证集上。)
3. 另一个项目,涉及综合评价,PCA,FA。问PCA从数据到最后结果的流程,每一步数据如何处理,选取了几个主成分,怎么确定的主成分数量,怎样从主成分到综合分数。
4. 写了个SQL。订单表,有ord_id,mall_id,goods_id,sale_number,amount,求每个商店里的商品价格的中位数。(用到了开窗函数和join,我大体方向正确,但是考虑不周全,面试官有引导纠正)
5. MySQL数据库,表的主键只能是一列,还是可以多列?(我理解成了可以有几个主键,面试官想问的是主键能否是列的组合)
6. 平时主要用Python做什么,会做策略和算法吗
7. gbdt和xgboost的区别(有追问基学习器,为什么gbdt用的是树,我提到了CART树,面试官问可以用别的树吗,这个我不知道……还有gbdt可以用线性的基学习器吗?为什么xgboost可以用线性的基学习器?这个我也直说了不知道……求大神解答)
8. 对拼多多的理解,对拼多多产品提一提看法(我提到的朋友分享的砍价页面)
9. 砍价页面,不同的用户点进来,每个用户每一刀砍掉多少钱,你怎么设计,写个函数吧(我说了想法,没写)
10. 你怎么验证刚刚提到的砍价策略是有效的,需要哪些数据指标(我提到了砍完价之后的成交率)
11. 砍价的成交率越高越好还是越低越好(这里发现了我对拼多多业务理解的盲点,成交率越低越好,因为每成交一单都会增加平台的成本,这里边只有成本,没有利润空间,拼多多主要赚的不是商品利润,而是流量)
面试官人都很nice,希望好运~
18
作者:960619 来源:牛客网
一面问题:
1. 介绍一个印象深刻的实习或者项目
我介绍了自己在美团实习时候做的分析case.主要体现自己分析的逻辑性。
2. 考SQL,自连接,写SQL
3. 怎么识别作案团伙,有哪些指标,或者模型,方法?
二面问题:
1. 介绍一下kmeans的原理
2. 出了一个统计概率题,扔硬币,然后求极限那种
3. 写SQL
HR面主要聊了职业规划,期望薪资,加班这种常规问题。
19
作者:那就这样吧! 来源:牛客网
分享下拼多多学霸批自己的经历,总结下自己,再接再厉。
本人最早拼多多学霸批刚开始的时候,好像是7月6号就投递了,一直期待着能进入拼多多。到面试整个过程都还算流畅。拼多多的筛选模式好像也挺玄学的,身边有同学朋友笔试比自己答的好很多的笔试挂了,有笔试比自己答的差,一面也比自己发挥差(仅个人感觉)的过了一面进入了后面的面试。我是8月7号下午4点视频一面的拼多多数据分析师,到今天发帖止没有消息,应该是凉了,下面是凉经。
1.万年不变的自我介绍。
2.首先问了一下简历里建模用到的最小二乘法,及为什么要那样求解(这个应该还算简单)。
3.A/B test,怎么做,什么时候用z test,什么时候用t test。
4.然后是SQL题。
①面试官看我笔试第3题没写,让我现场重新写一下,之前有很多牛友发过了笔经,不再重述。就是求新增用户数、次日留存率、30日留存率。
②表order有三个字段,店铺ID,订单时间,订单金额,查询一个月内每周都有销量的店铺。
这两题第一题笔试后我有思考,所以顺利的写出了新增用户数,但是面试的时候脑子抽了,求留存率我只计算了留存的人数忘记除了,面试官提醒了一遍没反应过来。第二题个人感觉难度比较大,面试时压力大思路混乱,用了lead()over()开窗,但是最后判断有一周没有销量的店铺ID的条件错误了。可能会有更好的查询方法。后来想了下,应该令销量等于0,然后查询出如果有连续7天及以上的日期的店铺ID,最后排除这些ID。
5.业务题:问如何预估用户的价值,用什么算法预估,用什么算法计算价值。答:根据用户的购买力(问什么是购买力,自己给了个定义)将用户分类,用决策树算法分类,用线性回归方法计算用户价值。本人对机器学习算法不是特别了解,临场凭感觉回答。(后来问面试官,面试官并没有说回答错)。
6.有什么问题问我。我问了流程大概有几轮,大概中间隔多久,面试官说这个他不清楚要问HR。然后问了对我有什么建立,有什么需要提升。面试官接下来的回答扎心了,面试官说感觉我的SQL还不太行。。。。(本人一直最自信的技能就是SQL。。。。在SQL上下了很多功夫)。
至此结束,一共一个小时左右。
面完后就感觉不是特别妙,但觉得自己应该还有机会二面,最后没有过也有些失落。Anyway,再接再厉吧,再多练练SQL,复习概率知识。PS:感觉拼多多的数据分析面试多是根据自己个人的简历,简历上写了什么会安排相应的面试官着重问,大家要面拼多多的多注意自己的简历细节。
20
作者:千山沈 来源:牛客网
1.主要针对简历提问
2.手撕一道sql
字段:订单号,店铺id,销量,求每个店铺销量排名的中位数。
3.说一下拼多多砍价公式思路,我估摸着考算法逻辑,算法不行答不上来
不到半小时,很快我就出来了,大概是太菜了
21
作者:cc就是我 来源:牛客网
1. 问做过什么项目,简要介绍一下项目内容,都干了些什么;
2. 20G个数,怎么找出其中最小的1000条数据。。我说hash映射然后大顶堆,于是面试官就问我,大顶堆是个什么数据结构,如果往堆里面插入一个数,是怎么样一个流程。。。;
3. 拼多多和淘宝的区别。。。;(我说拼多多更便宜。。尴尬)
4. 拼多多有很多用户,说几个能分类用户群的维度,比如:性别、年龄。。(当时我是蒙圈的,我想到的都被他比如了)
5. 有2n个数,把它们两两分组,如何分组才能使每组最小的数之和最大?为什么要这么分?
6. 你对拼多多还有啥要问的没有。。
22
作者:一面面完二面过 来源:牛客网
回馈牛友攒人品,因为看到所有写了面经的人都接到二面通知了,求过!
面试官感觉人很nice,很有耐心。今天下午2点面试的,远程40分钟,问题有点多,涉及得有点广
1.问了两个项目,一问到底,其中包括为什么要考虑模型融合,特征选择的策略
2.项目的数据量是多少,做的项目可以用到哪种具体的情况
3.怎么判断模型的好坏,原理是什么
4.为什么有了roc还要设计t-test
5.实习项目,日活,转化率之类的怎么具体看一个新活动的效果
6.2道sql题,面试官说笔试已经写了,所以这次就口述哈哈开明
两个篮球队打比赛,选突出球员,要用到开窗函数rank()over(partiton by。。。),还有一个题要用到开窗函数中的sum()。。。
23
作者:不要这么轻易放弃应届生身份啊!! 来源:牛客网
只面了四十分钟…
1.自我介绍
2.写了一个sql 8.1-8.10每一天消费金额排名在101-195的user_id
3.给了一个情景题:假设两个班语文成绩为四档,A B C D(并不意味着A比B好,B比C好…)问怎么判断两个班的成绩哪个更好
面试官自己讲用假设检验……
4.简单的问了项目
5.闲聊了一些……
感觉凉了,一点机器学习和业务分析题都没问,可能看不上问了ORZ
24
作者:想上岸呐 来源:牛客网
8/23 二面 电话面试
之前看别人都是两三天通知二面,我等了将近一个周,还以为凉了,感恩给我第二次机会
1.介绍
2.介绍了一个项目
3.一道sql:使用共同的ip数量大于等于3个用户对
4.logistic模型的原理与求解
5.xgb和randomforest是同一种集成学习吗
6.有用过拼多多吗?关于砍价活动怎么看?选取指标评价砍价这个营销活动
二面大概只有35分钟,感觉自己的sql还是很菜,继续努力吧
8/13 一面 电话面试
面试之前看到的面经都是跟机器学习相关的,然后准备了一天机器学习的东西,结果面试是偏业务的,哭辽。
1.自我介绍
2.写sql:取到当日支付订单数前1000的商品(订单金额>=80),并且取到这些商品中每个商品订单量前100的渠道
我的sql是自己在网上学的,刷了一下牛客网的题,后半部分写了一下只能输出100个,面试的小哥哥耐心的引导了我好久是组内排序我也没写出来,还是自己太菜。
3.从数据分析师的角度来分析一下销量下降的原因。
答从内部和外部,后让我着重分析内部
4.估计上海红绿灯的数量
5.你认为数据分析师的工作及三个使命
6.对拼多多的看法
前后大约50分钟,没有问我任何跟项目有关的东西。虽然sql有一半没做出来,但是希望能有第二次机会
25
作者:想变锦鲤 来源:牛客网
1.自我介绍
2.实习经历
3.项目经历
4.决策树原理、信息熵信息增益
5.ROC AUC
6.如何挖掘*在用潜**户
7.实习内容符合当时初衷吗
8.影响最大最有意义的事情
9.你做数据分析的优势
10.拼多多和其他同类平台的区别面了半小时左右,机器学习的我都记不太得了,目测凉凉
26
作者:超锅 来源:牛客网
9月8日,也就是在我24岁生日这天上海现场面试的,也算是一种缘分吧~~
1面(HR面)
1.带我走进面试房间路上,我先非常好奇的问了下PDD的面试流程,她说所有人都要2技术+1HR,谁有空就先哪个流程
2.正式开始,自我介绍
3.基本情况调查
4.是否了解拼多多
5.是否接受这个工作时间,工作地点等等。
6.甚至还问了期望薪资。。。
2面(技术面,后来了解是做数据仓库的)
1.自我介绍
2.让我详细的介绍项目,我只能介绍个KDD比赛,就把所有的比赛流程,巴拉巴拉的讲了很长时间,感觉他也听的津津有味,一直也没提什么问题。然后,他说他是做数据仓库的,不是太懂机器学习的东西,就不问这些方面的问题,不过夸我讲的还是不错的。
3.然后就问懂不懂C,JAVA,python之类的,我说我不太懂,只懂些PYTHON,然后就让我手撕反转二叉树,递归的就行。
4.SQL题,(具体的忘记了,好像用到了RANK() OVER(PARTITION BY),然后LEFT JOIN,)
5.介绍下HADOOP,HIVE和SPARK
6.内部表和外部表区别?
7.HIVE数据倾斜怎么办?
8.又突然给了个算法题,快排,不过这次说出原理就行,然后问了各种排序的时间复杂度
9.GMV突然下降了20%,怎么分析?如何在众多因素中找到原因。
10.你眼中的数据分析师是什么样的?他在这个问题上也和我进行了一些探讨。
11.刚才还顺带的提到了我了下数据分析思维,他提到的应该是个拆分的思想,然后让我自己想一个场景,运用这种思想。
12.又突然给了个SQL题
13.向他提问。
出来一看,这个二面足足面了快1个半小时。。。
3面(技术面,好像是做数据挖掘的,第一次看到面试官比我还紧张的。。。)
1.自我介绍
2.仍旧是介绍项目,不过面试官非常懂这个,一直在不断提问,就是深挖这个项目。使用的数据啦,特征处理啦,使用的模型啦等等,中间还一度质疑我做的样本太少,但是我解释这个比赛的确样本少,噪声有点大。最后感觉就是变成互相探讨的过程,交流心得。。。。
3.SQL题(用到了case when)
4.向他提问
二面大概40分钟左右,开始以为会栽到二面上,的确自己在一些地方说的不够好,知识水平也没有那么完备。好在今天终于如愿收到意向书了,终于可以平复下最近烦躁的心态了。最后希望小伙伴们都能找到自己满意的工作~~~
27
作者:打滚卖萌求offer 来源:牛客网
一面
拼多多现在还只面了一面,估计凉了。提前批加秋招以来气氛最紧张的一场面试emmmm。
1.自我介绍,实习项目介绍
2.然后两个人围绕kmeans争论了可能有20分钟
3.怎么评断kmeans的效果
4.kmeans的k怎么选择,emmm我说可以根据可视化and调参,设定k的一些取值看哪一个效果最好。面试官似乎不满意,说你这样得出来的是你参数范围里的最优。好吧,我也不知道怎么回答这个问题。
5.kmeans聚类初始点的选择会不会影响聚类效果。然后就围绕这个问题讨论了很久,面试官认为是不会影响的,我觉得会影响,emmm,然后大家诉说自己的理由...emmm
6.kmeans的基本过程是怎样的
7.kmeans为什么最后聚类中心点可以收敛(这个我真不会证明Orz)
8.kmeans的距离可以选择哪几种,适用场景分别是哪样的
9.问了两个SQL题,一个是分数排名,一个是分数依次累加(牛客网SQL板块有类似的训练题)
二面:
1.简历上的项目
2.神经网络调参
3.神经网络中缓解过拟合的方法,dropout跟BN的原理
4.LR的原理,损失函数以及求解的方法
5.数据预处理的步骤与方法
6.一个算条件期望的计算题
7.SQL题,连续三天发生购买的用户
28
作者:逗你玩0827 来源:牛客网
拼多多数据分析一面 攒攒人品 虽然觉得自己答得不好 大概率得挂
一面约了几天都因为面试官有事 但是有事不面也不通知 每次都是我问HR原因,面试主要问了实习经历和简历上相关的内容、项目什么,问的还算比较细吧,问了简历里的LASSO、支持向量机,问了是具体怎么求解实现的,因为当时是R直接调的包,所以具体怎么解当时忘了,还问了一道概率题,是个抛硬币问题,大概会用到几何分布、极限、全期望还是什么条件期望公式,问了一道sql题,是查询5天内有连续记录的uid,视频面试大概一个小时吧,面试官是数据分析风控方向的,感觉还可以,就是我太菜了,有点难过,,以后加油吧!
29
作者:hoobee 来源:牛客网
一面
1.自我介绍
2.介绍项目
3.说一说序列标注的方法(和项目相关)
4.hmm的bw算法和维特比算法
5.介绍另一个项目
6.问了一些特征工程的问题
7.one hot编码后怎么降维
8.介绍一下降维的方法,讲一讲pca
9.gbdt,xgboost,lightgbm异同
10.算法题,找出最大覆盖字符串的字符串集合。
二面
一面全问的机器学习,搞得我以为二面也是问机器学习,后来才发现是业务。
1.自我介绍
2.讲一个项目
3.sql:
1.求店铺每日销量以周同比
2.每天新增用户数,分平台看拉新效果
3.计算七月每周都有销量的店铺
4.a,b两个活动gmv差别很大,怎么分析
5.最后问面试官,他说招的数据分析师都是搞业务的,怎么和之前说的不一样
30
作者:ccyy宇宙最美求保佑offer 来源:牛客网
第一次写面***笔不太好,见谅哈
写面经是希望能跟大家讨论面试题,为下一次面试做准备(毕竟这次应该是凉了)
8.24上海,线下面一般都是走完全部流程,即两场技术+HR面
HR面:
1.为什么转专业(围绕本科专业聊了一会儿,也问了本科和研究生的成绩) #这里特别想请教,怎么回答转专业这个问题比较好
2.描述你的人格,有什么缺点,有什么需要改进的地方
3.父母职业
4.期望薪酬
5.能否接受拼多多的时间(大概是10点上班,8点下班,中间12点到1点休息,下午6点到7点休息,周六放假)
6.能否接受职业调剂
技术面一:(一个甜甜的小姐姐面的)
1.笔试的时候sql题修正(第二轮笔试的记录点击时间和金额的那个题,我的扣分点在于开窗的时机不对,应该先加一个where条件限定点击时间与下单时间的顺序,再开窗)
2.sql题
三个表 T1:good_id,cate_id T2:mall_id, good_id T3:mall_id, credti_score
问,在不同分类中,店铺的信用分前100和求top25%
答:先三个表join再groupby 店铺和分类,rownumber取前100。
top25%本来想用quantile函数,但小姐姐不让,所以算出每个分类下的店铺总数,然后top 25%*总数
3.路上有三种车,红黄蓝,黄车事故率很高,所以要换掉黄色。
问:对这个决策的看法
小姐姐的提示的答案:从别的角度寻找事故高发的原因,把所有可能因素一起放到多元回归里面,看显著性再决定黄色是否是影响事故高发的原因
第二个方法是直接比较不同情况下的事故概率,例如将不同颜色的车和同一个年龄段的司机的事故概率放在一起比较(其实这个方法我没有听懂)
4.简历和实习的一些问题
技术面二:
1.问中位数、众数、平均数的差别,不允许说定义
答:先讲了一个数据左倾和右倾情况下的差别,面试官不满意。。。。
再举了一个应用场景不同的例子,面试官还是不满意。。。
2.问T检验应用场景
答:样本量小于30,样本方差已知,总体方差未知,
或求两个样本之间的均值是否有差异
面试官不满意。。。。
3.拉普拉斯系数怎么算(我真的没听过这个名词,也不确定面试官问的是不是这个,反正我不会)
4.sql
表:order_id, amount, date, user_id
求8.1到8.10,每天的消费总额排名前500到1000的用户的用户id
5.给一个课题,中国人和日本人的身高差异
题目就是如此简短,给十分钟思考,怎么做这个课题
(按照标准的实证研究的方法说了一遍, 他说我选取样本没有办法代表13亿人口,和1亿多人口的总体差别,
我答:如果我的样本与两个国家的***统计部门提供的样本均值样本方差一致,我认为我的样本可以代表1亿和13亿的总体
他怼:国家统计部门不一定可信啊,他们的结果也可能是错的,你拿错的东西对比较做出来的东西当然也是错的了
我内心:那你这13亿和1亿的人口总数说不定也是错的呢)
6.经典称砝码题,分治法
更新:
面了其他家之后,再回想拼多多三面的面试官
除了科班出身以及拿工作经验怼应届生的优越感,感受不到专业性和对应届生的尊重,除了怼还是怼
最后提问环节,我问:之前那几题的想要的回答是什么,他说,你自己去百度
我继续问:你觉得在数据分析的现阶段,传统的统计分析方法在工作中的具体用途是什么?
或者说我们已经能够获取接近整体的数据的今天,为什么还需要拿大数定理这种30个样本起步就可以用的定理去描述整体的情况。
然后他大概感受到被挑战了权威了吧,气急了就质问我有没有学过概率统计(其实楼主本科概率统计98分),
我说学过,他说那你的概率论老师要骂你了吧
我心想:我老师当时还挺喜欢我的,要骂我的人是你吧
31
作者:羡慕小年轻吖 来源:牛客网
远程数分第二批面试一面,早早的起床,透心凉
1.自我介绍
2.本科毕业到研究生之间好多年干嘛去了,答上班了啊 问工作那么多年了为嘛还要读研究生,我...
3.问项目 项目都很水没什么内容没得问,问了个时间序列用的方法...忘记了...然后说完忘记了下一个问题的时候想起来 诶 ARIMA 但是没脸再补充了
4.问月度活跃商品数会不会跟着成交额的走高而走高
5.接着问项目 有一条是提高SQL语句效率,问怎么提高的,可惜我基本上只是靠重新收拾了公司的数据库所以不用跨database join.......
6.写SQL 求不同user level里面按照成交量排名的前10个user
7.做概率题
已知P(A=1|B=0,C=0),P(A=1|B=1,C=0),P(A=1|B=0,C=0),P(A=1|B=1,C=1) 问P(B=1|A=1,C=1) 坦诚的告诉面试官不会,只会做一个条件的,面试官不死心,循循善诱,最后还是放弃了
一个小时,有差不多15分钟都在纠结最后一个题
太难了,面试官说都会有两次面试,综合考虑...还让我下次面试加油...但是其实不是很想再经历一次 转专业的表示水平真的一塌糊涂,赶紧这几天再抱抱佛脚了只能...
32
作者:想不到什么昵称 来源:牛客网
拼多多(上海--数据分析师(寻梦批)--9.21号现场面试,收到意向书)
一面 1h
自我介绍
针对简历实习内容进行各种详细提问30-40min
遇到留存下跌怎么分析
写一道sql 点击表和订单表 牛客有类似的题 稍微有点不一样
生产方形圆形井盖问题
有什么想问我的
二面 50min
自我介绍
深挖两份实习,写什么问什么30min多
什么是用户行为分析,用在哪里
在拼多多上班,一年内自己有什么规划
sql题和另一道解方程的题选一道做,我选了sql(比较简单)就不记得第二道题是什么了
sql题是logtable,uid, visitdate source(渠道)表里有新老用户,求每天新用户的渠道分布
面试官纠正了我的sql写法,因为数据量的问题,建议我使用开窗函数做
有什么想问我的
hr面25min
介绍实习
画流程图
为什么不做通信,做数据分析
了解拼多多吗?
做过志愿活动?
父母做什么的
有无对象
服不服从调剂
期望薪资
两到三周给通知
33
作者:KeepGoingOn 来源:牛客网
8.18一面 53分钟:
远程电话面,是个小哥哥,电话一接通报名身份后就说准备好纸和笔,我们来写一道sql题
1.sql题:已知一个订单表,有字段【订单号】,【日期】,【下单时间】,【下单金额】,【商品一级类目】,【商品二级类目】请求最近7天内每一个一级类目下成交总额排名前3的二级类目。说一下思路:
· 1.先筛时间7天内,datediff(now(),日期)<=7
· 2.分组group by一级类目
· 3.sum开窗求每个二级类目销售总金额,sum(下单金额) over(partition by二级类目) as total_amt
· 4.再用rank(total_amt) over() rk rk in[1,2,3]或order by total_amt 结合Limit 3选前3。
2.自我介绍:介绍了自己做数据分析和挖掘的实习经历和感想。
3.分析和挖掘你更偏向哪个方向?
4.问项目细节
5.缺失值怎么处理?异常值怎么判断?连续型我答用均值填充,又问离散型怎么弄,想了半天每想到,面试官提示介绍下极大似然估计法,最后说用众数去填充。异常值看数据分布,均值、标准差,画图,箱线图判断等
6.模型的评价指标有哪些:
accuracy,precision,recall,F1,ROC,AUC
其他方面的评价:模型的稳定性,参数的显著性检验
7.过拟合是什么原因造成的,有哪几个方面?自己答了模型层面上的,面试官一直问还有吗,最后他回答:从样本层面上有样本不均衡,维度过多,数据样本太少等问题。
8.业务题:(1)你的一个朋友经营一个网店,以前100个人浏览会有50个人下单,最近客服咨询量提升到200,但下单却下降到40,请你帮她分析原因。答:先锁定原因,是在咨询到下单过程中,所以可能是页面设计的不合理,支付体验不佳,或者同类商品推荐更具诱惑,考虑商品问题。好像都没回答到他想听到的点,又问还有吗,然后我说也可能是客服的原因,他才接下来第二个问题(2)你的朋友说最近咨询的人变多了,但是他做的是小本生意,没有能力再去请多一个客服,所以导致自己回复用户速度下降,很多人就走了没有下单,请你帮他想一下解决方案答:能请多一个人更好,不能的话就看一看哪些时间段成交率比较高,在这些时段提高自己的效率,其他时间段可以稍微放松。或者重点服务信誉高,成交率高的用户。然后面试官又问还有吗,我实在想不到,沉默了一会....后来面试官说可以设置自动回复。(3)你的朋友按照你的建议去做,生意变好了,他赚钱了,然后他一下子请了5个客服,请你设计指标去考核客服的KPI。说了一些成交率,回复率,服务态度等,想不到别的啥。
我觉得业务题有点难回答吧,而且看其他面经都是一个或两个不相关的业务题,我这个一环套一环,没电商行业实习经历真的觉得这方面挺缺乏的,希望有小伙伴在底下交流下你们的思路,还有如何积累业务题的经历。
8.20二面 48分钟
1.先自我介绍
2.讲了一个实习的项目,问的提别细,每个细节都问的特别清楚,我做了什么工作,怎么做的,具体实现。
3.做个sql题。意思就是有些人一个人开了好几个小号,你要用ip登录次数识别出来。大家可以讨论下,我没做出来正确方法,但最后问了面试官怎么做
4.有没有用过拼多多,怎么评价砍价活动的广告效果?有哪些指标?
5.有没有想问我的?
二面主要是那个题目有点难,想不到怎么表现共同出现,楼下可以交流讨论一下,还有业务题,一起提高进步!
这两面我都搞不清楚哪个是偏业务面,哪个偏技术,而且面试都约的太急,没什么时间准备,秋招第一个面试的公司,积累经验了!
34
作者:农夫酸酸乳 来源:牛客网
一面:8月21日14:00
一个超级温柔的小姐姐(花名:源来)。先聊聊简历的东西,说说项目。随后撕了两个sql题目,难度弱于笔试。来张图证明所言不虚。。。

考察点:开窗函数 RANK() OVER(PARTITION BY XXX ORDER BY XXX)
业务题:如果你负责生产全市的窨井盖,可以生产圆的和方的,如何计算怎么生产更合适(思路:根据材料限制情况,线性规划,别想的太复杂)。
当天晚上微信介绍了她所在的团队情况,估计应该是比较满意吧。
二面:8月22日10:00
一个有点严肃的小哥哥(花名:陈真)
考的同样是撕sql题目,有一个比较水就不说了。有一个需要下一列和上一列的求差操作(背景好像是连续数的题目,相邻两行数据之差少于多少算连续,要为不同连续部分标记),而且不许用定义变量@符号。几层嵌套都用的还可以,最后求差这里卡住了,因为之前都是用变量去操作的。最后感觉这肯定是凉了,结果莫名其妙过了。估计被捞的吧。
三面:9月4日15:00
HR直接一个电话就过来了,问方不方便聊。
还记得的几个问题:
1.高中有参加竞赛,为什么大学不参加了?
2.看你学的是理科,为什么选择数据分析?
3.更倾向于业务还是理论?
4.手里有没有其它offer?
小哥哥声音挺好听的,整体时间12分钟左右(我还吐槽了中间等了两周的时间,气氛比较活跃友好)。
意向书电话通知:9月11日14:00
三天内下意向书,pdd之旅告一段落。
35
作者:瑞塔塔来源:牛客网
今天面了拼多多的数据分析,面试官是个人很和善的小哥哥,但是问的问题感觉跟牛客上面经的问题都不一样,哭晕我真的是。
首先聊了大约半小时的项目,感觉说的还行,就不在这里说了。。。
然后是SQL,其实感觉是不难。但是因为有时差,凌晨五点爬起来面试,感觉整个人都很懵逼。
给出【员工ID】,【名字】,【薪水】,【上级ID】求:找出下级员工薪水 > 上级员工薪水的人
表格示例:
ID Name Salary 上级ID
001 JOE 4W NULL
002 TOM 3W 001
003 FY 2W 001
004 JIM 3W 003
由于我自己的答案感觉不太对,我就不写在这里误导大家思绪了 ̄□ ̄||
求大佬帮忙指导给答案。先在这里万分感谢大佬 Thanks♪(・ω・)ノ
2.大数理论和概率问题
说来惭愧,本人本科金融,但是学校没要求要上统计概率方面的课。硕士转到商业分析,时间一年有余,但是对大数和概率真的...是不咋懂。
面试官问我懂不懂大数和概率的时候,本来我想说不懂,因为真的不懂。但是想了解一下指的哪一部分的大数,然后,就这么聊起了大数和概率问题...
问的第一个问题,说说你怎么判断中位数的。但是不用MySQL,就口头说。
我答的是,一组数字乱序的话,先排序。奇数取中间那个数,偶数就是中间两个数除以二。
面试官好像不太满意,继续问。。。说给100个数,怎么找?
我说...hum...排序完以后数?(本来想说用sql求,但面试官说不用那么复杂)
然后感觉自己答案很傻很尬,也很无奈┭┮﹏┭┮
3. 说一下什么情况下要用中位数,众数,或者平均数?
我答的,异常值处理的时候,连续性变量用均值,离散型变量用众数,或者中位数替代。
感觉面试小哥哥觉得我说的不是他想问的,问如果只有离散型数据,均值,众数,中位数我怎么选择?换句话,什么样的数据用中位数,什么样的数据用平均数?
实在不知道要怎么答。。。随便答了点,反正最后就不了了之了。
4. 概率问题,有两个医院,一个是三甲医院A,一个是小医院B。问两个医院出生男孩宝宝的概率。看我的思路。
其实我没太懂到底想问啥。。
开始我说,在同一时间段采样,然后算一下A医院男孩出生的数目,再除以总的出生量,就可以的出那个时间段男孩的出生概率了。B医院同理。再比较A和B概率的大小。
面试官说不考虑这么多因素,不采样。就问我怎么想。我觉得哪个医院出生男孩的概率大?
我真的是不知道面试官想考察哪个方面的知识点,懵逼again。。。
总之,前面聊项目我还蛮开心,感觉说的是最好的一回了。然鹅,我准备的面试问题,真的是一个都没碰上啊OMG。
过程中我最大的问题就是,总是没能理解面试官到底想问的是哪个方面的知识点。感觉我get 不到他的点。难过(ಥ﹏ಥ)
诶,希望以后的面试能越来越好吧。然后,欢迎大家一起讨论呀。
36
作者:123牛客 来源:牛客网
一面:
1.自我介绍,到了实习项目的时候聊了20分钟,一直深挖为什么这么分析,有哪些根据,所以自己的实习业务一定非常熟悉
2.内表和外表区别
3.小表链接大表用什么方法链接(我答的map join,又深问了一下,不懂了)
4.数据库的acid,表示忘了
5.分析一下如何长时间监测拼多多的商品比淘宝的便宜,选指标分析
6.sql求一个价格的中位数
7.你有什么要问的
二面:
1.实习问的很多,跟上面差不多
2.一个店铺的销售额下降如何分析
3.七个球五个重的两个轻的,还有一个天平,如何最快的次数找出这两个轻的球
4.两道sql一道求新增用户,一道求次日留存率
5.有什么要问的
还有一些小细节的问题记不住了,总体比较偏业务。现场两面就结束的估计就我吧
37
作者:黄灯灯 来源:牛客网
第一面:8月9日下午五点,时长1h 远程面试
1.自我介绍
2.砝码问题:2个轻的砝码,5个重的砝码和一个天平,几轮可以找到轻的砝码?面试官说是开放性问题,我当时说的是4轮,但我看到其他帖子里面有3轮算法,更简单,可以参考:
https://www.nowcoder.com/discuss/226713?type=post&order=create&pos=&page=1
3.某个平台6***促后销量下降了,分析原因。
4.两道sql题目:第一道比较简单,想不起了,第二道是:针对某平台的销售数据,每家销售店铺有每日成交额,找出成交额在六月份前20%,20-40%,40-60%,60-80%,80-100%的店铺;
5.还有什么问题问她。
第二面:8月20日(看别人都是两三天就有电话了,我以为凉了)
视频面试:下午7点,时长1h
1.自我介绍+项目介绍;
2.就项目内容深挖,具体的操作步骤,涉及的指标;
3.sql:一个用户登陆表,里面有uid,log_page,log_time,log_page就是A、B、C、D、E....网页,log_time就是对应网页的登陆时间,找出所有的登陆过A、...B、...(非C)...D的用户,就是先登陆A网页,之后登陆B网页,之间可以登陆其他所有网页,再登陆D网页,B和D网页之间可以登陆任何非C网页的其他网页。这个题目没答出来,面试的小哥哥很好,一直引导我,感觉得花了半个小时,结论是用left join,先找出用户A的时间,然后left join到所有A之后的B,再找到所有B之后的D,根据此表,对应一个C网页的时间表,只要用户C网页时间在任意B和D之间没有就输出。(不知道讲清楚没有~)
4.也是sql:对一张用户的订单表,有下单时间,统计出上个月每周都有销量的uid数量:我说的是将表切割成每周,然后inner join每个切割表中都存在的uid,面试官说太复杂,直接判断,每个周都存在购买就可以,后来想可以用case when来对每个周有购买的做记录,最后以相加大于4就可以。
5.sql中where和having区别;
6.场景题目:如果一个购物平台页面,两个子入口连接对应的产品列表,交易额相差很大,分析原因:可以从商品类别差异、产品销售量、单价、入口流量、各渠道转化率来分析(后面是面试官补充的)。
总结:sql还是太弱了,但是二面的面试官真的很细心,我一直想不出来也不耐烦,一直给我解释引导,非常和蔼,感恩,呜呜呜。
38
作者:Molyniuke 来源:牛客网
1.自我介绍
2.问了之前做的项目
这里暴露了我一个问题,我没有做准备,结果这一块答的不是很流畅,真的简历中项目的细节一定要确认,用了什么特征,用的什么方法,方法的原理是什么?最好准备一个总结版(汇报版)
3.问了我实习的细节,其实就是夜间经济的项目
我简单说了一下基本情况,小姐姐进一步问了我,这个结论如果使用到商业化环境中,你觉得会有什么作用。我结合了一下公司的业务,回答可以规划单车的投放时间和路径;酒店的定价系统;外卖骑手的配松的人员安排。(这里答的比较散,说的也不深入)
4.小姐姐给了一道业务题,说是618的成交额下降会怎么和老板汇报
我列举了几个可能的原因,从计算问题,到服务器bug,软件bug,对比同活动后期,到最后建立漏斗。可能还是回答的逻辑性不强
5.小姐姐给了2道sql题目
我没写完,第二题真的长
6.你有什么想问的
感觉这次还是自己准备的不充分,然后业务题不太熟悉,小姐姐也说我略着急
39
作者:什么时候才能有offer啊 来源:牛客网
9.18 晚19点 微信视频面试 时长1h15min
1. 自我介绍
2. 实验室有没有相关项目,是做什么的
3. 毕设做什么的,然后追问了一些毕设的东西
4. sql题:一个表格s,属性列有学生学号uid,学生某门课课程名cname,该课程成绩score,求:有两门课成绩低于60分的学生的学号,和他们所有课程平均成绩在整体的排名,并给出所有人在课程名为‘k’的课程的成绩排名。写了好久......我问面试官是给具体代码还是思路就行,可能面试官不是很满意,和我说课程名的那个排名先不写了,先写前面的条件。
5. 概率题:红黄蓝三个球,有放回地取三次,问取三次都是同种颜色的概率和三次都是不同颜色的概率。
6. 又sql题:一个商城下单数据表格s,属性列有用户uid,下单金额cost,下单购买的商品品牌shop,下单购买的商品名称goods,下单时间d,求:最近30天用户消费金额的排名并给出该用户购买了多少家品牌的产品(有重复品牌,只求购买品牌数,不是商品数)
7. 又概率题:八个队伍,四个强队,四个弱队,问至少有一场比赛是强强对决的概率。可以求四场比赛都是强弱对决的概率,再用1减去这个概率。这道题是牛客网概率统计专项练习原题,我一开始做个答案出来面试官没有肯定,一直问我可不可以有别的思路,我直接蒙了,做了四个答案,他也不说谁对谁错,也怪当时自己练习的时候没有好好琢磨这道题。
解题思路:把8支队伍分成强队(A,B,C,D)和弱队(A‘,B’,C‘,D’),分母就是所有队伍组合,分子就是只能强弱组合:
分母:A可以选择剩下的7支队伍,B可以选择剩下的5支队伍,C可以选择剩下的3支队伍,D没的选就是1;
分子:只能强弱对决的话,A可以选择四支队伍(a,b,c,d),B可以选择三支队伍(去掉A选择的弱队),C可以选择两支队伍,D没得选也是1,最后概率
=1-(4∗3∗2∗1)/(7∗5∗3∗1)= 27/35(我中途做出了这个答案,他又问我思路是什么,有没有别的做法,我以为我错了就又算成别的去了)
8. 问我简历上的每一个算法:
· 决策树和xgboost的区别是什么
· 决策树做特征选择的时候怎么确定(答:信息增益、信息增益比、基尼指数),写基尼指数公式
· xgboost和lightbgm的区别是什么
· xgboost在gbdt上的优化体现在哪里(答提高了计算精度,并且把模型复杂度作为正则项加到优化目标中),追问:怎么提高了精度?复杂度怎么考虑的,就作为正则化就完了?
· xgboost在adaboost上的优化是什么
· boosting算法是如何利用串行来提升的
· 为什么xgboost那么多人用,好在哪
· L1、L2正则化是什么
· svm干什么的,什么时候用,为什么要用svm
· 你还知道机器学习什么算法,(答聚类kmeans、DBSCAN、高斯混合聚类、层次聚类巴拉巴拉),说一下kmeans和DBSCAN的区别,为什么用DBSCAN不用kmeans
9. 你有什么问题问我
只敢问了一下面试流程(反问我你面试过吗,我说是pdd还是其他公司,他说肯定pdd啊我不关心其他公司),多久给消息,什么部门
面试官说面试是交叉面,每一面的部门可能不一样,两面或三面技术面,然后HR面,最后是统一分配,数据分析师的岗位是不变的。
面试体验:全程瑟瑟发抖,完全不知道自己说的对不对,面试官也没有表情,就一直看着我,我写sql的时候他就一直盯着屏幕看,搞得我敲键盘手都是抖的;我不知道是我理解有点问题还是什么,有些问题还得再确认一下他问的什么意思,问得仔细的仿佛他什么都不懂要我给他解释,但又好像他什么都知道,给人感觉我知道你说的是错的你也知道你说的是错的,但是我也不反驳你说的内容。最后都不敢问对我有什么建议,感觉我问了他会说就你这水平回去重新学吧不过都是我自己的脑补,可能人家什么都没想,只是想面完赶紧下班而已
40
作者:求offer啊啊啊啊快结束秋招吧 来源:牛客网
拼多多学霸批数据分析师:
一面:
1.实习经历+实习做的事情的效果衡量,怎么评价这次活动的ROI,能不能写个公式。
2.写个sql:有商铺名,商品名,单价,求每个商铺的商品单价的中位数。(我写了count*/2 作为中位数,面试官说应该是(count*+1)/2)
3.对拼多多的了解,我说砍价,对砍价的评价
二面hr
三面:
1.写两个sql(留存率,还有一个不记得)
2.一面面试官的相同的问题,你这个活动带来的效果怎么知道完全使它带来的,有没有其他事件的影响?最后面试官提到了漏斗分析。我当时没深入了解漏斗分析,还是我太菜了,刚开始秋招的时候很多都不知道。
3.修井盖,方的和圆的修哪一种?
关于拼多多的2020届数据分析面经就整理到这里了,资源来于牛客上2020届同学进行的分享,我将其进行了整合,基本保持原样,未做修改,连HR面的内容也未做删改。
大家可以多看看,多想想,好多题目可能还会遇到,或者是会遇到相似的题目,再再再次感谢给提供面经的小伙伴。