数据分析题:网易2018实习生招聘笔试题
- 来源:牛客
- 题型:单选20道,问答3道
- 牛客网评估难度系数:4颗星
1.有2堆宝石,A和B一起玩游戏,假设俩人足够聪明,规则是每个人只能从一堆选走1个或2个或3个宝石,最后全部取玩的人获胜,假设2堆宝石的数目为12和13,请问A怎么可以必胜?
A. 让A先取
B. 让B先取
C. 没有策略能够让A必胜
D. 说法都不正确
答案:A
解析:第一个人先取走一个,剩下12+13=25个宝石就剩下24个,保证两人各取一次宝石为1轮游戏,那么每轮游戏拿走4个宝石,6轮后结束。先取的人拿走1个,后者拿3个,先取2,后者取2,先取3,后取1,后者总能保证一轮游戏以取走4个宝石结束,并在每轮游戏中处于后手,获胜。所以A先取走1个宝石,在24个宝石中,A讲处于后手的有利地位。
2.从数字集合{1,2,3,4,… ,20}中选出4个数字的子集,如果不允许两个相连的数字出现在同一集合中,那么能够形成多少个这种子集?
A. 2380
B. 816
C. 330
D. 1220
答案:A
解析:相当于在16个数字的周围17个空位中,插入4个数字C(17,4)=2380
3.将4个不一样的球随机放入5个杯子中,则杯子中球的最大个数为3的概率是?
A. 9/16
B. 16/125
C. 16/25
D. 9/25
答案:B
解析:5*C(4,3)*4/5^4=16/125
4.已知y=f(x)的均差f(x0, x1, x2)=14/3,f(x1, x2, x3)=15/3,f(x2, x3,x4)=91/15,f(x0, x2, x3)=18/3,那么均差f(x4, x2, x3)=( )
A. 18/3
B. 14/3
C. 15/3
D. 91/15
答案:D
解析:X的顺序,不改变均差结果f(x4, x2, x3)=f(x2, x3,x4)=91/15
一篇介绍均差及牛顿插值法的很好的回答:https://www.zhihu.com/question/22320408/answer/141973314
5.一个快递公司对同一年龄段的员工,进行汽车,三轮车,二轮车平均送件量的比较,结果给出sig.=0.034,说明()
A. 三类交通工具送件量有差别的可能性是0.034
B. 三类交通工具送件量没有差别的可能性是0.034
C. 交通工具对送件量没影响。
D. 按照0.05显著性水平,拒绝H0,说明三类交通工具送件量有显著差异。
答案“D
解析:SIG=significance,意为“显著性”,后面的值就是统计出的P值,如果P值0.01<P<0.05,则为差异显著,如果P<0.01,则差异极显著。
6.小明在一次班干部二人竞选中,支持率为百分之五十五,而置信水平0.95以上的置信区间为百分之五十到百分之六十,请问小明未当选的可能性有可能是()
A. 40%
B. 50%
C. 5%
D. 3%
答案:D
解析:置信区间在50%~60%,说明支持率在这个范围之外的可行性只有5%,而这5%即包含小于50%,也包含大于60%的部分,所以可能的情况一定比5%小。
7.某销售车辆公司某一时间段各类商品的销售量如下图,销售员需统计以下公式所示数据=SUM(SUMIF(C2:C9,{"<10","<6"})*{1,-1})。请问,该公式返回值为()
A. 23
B. 9
C. 14
D. 22

答案:C
解析:SUM( 小于10的乘以1,小于6的乘以-1)
SUM(SUMIF(C2:C9,{"<10","<6"})*{1,-1}) = (4+5+6+8) + (-4-5) = 14
8.SQL语句执行的顺序是
A. 1.SELEC 2.JOIN ON 3.FROM 4.WHERE 5.GROUP BY 6.HAVING 7.ORDER BY
B. 1.SELECT 2.FROM 3.JOIN ON 4.WHERE 5.GROUP BY 6.HAVING 7.ORDER BY
C. 1.FROM 2.JOIN ON 3.WHERE 4.GROUP BY 5.HAVING 6.SELECT 7.ORDER BY
D. 1.JOIN ON 2.WHERE 3.GROUP BY 4.HAVING 5.SELECT 6.FROM 7.ORDER BY
答案:C
解析:
「语法顺序」是:SELECT[DISTINCT],FROM,WHERE,GROUP BY,HAVING,UNION,ORDER BY
所以在where筛选条件时,不能使用SELECT中设定的字段
9.随机地掷一骰子两次,则两次出现的点数之和等于8的概率为:
A. 3/36
B. 4/36
C. 5/36
D. 2/36
答案:C
10.设随机变量X和Y都服从正态分布,且它们不相关,则( )
A. X与Y一定独立
B. (X, Y)服从二维正态分布
C. X与Y未必独立
D. X + Y服从一维正态分布
答案:C
解析:相关性仅表示变量之间的线性关系,独立表示变量之间没有相关性,也没有除相关性以外的其他关系。
11.某地区每个人的年收入是右偏的,均值为5000元,标准差为1200元。随机抽取900人并记录他们的年收入,则样本均值的分布为()
A. 近似正态分布,均值为5000元,标准差为40元
B. 近似正态分布,均值为5000元,标准差为1200元
C. 右偏分布,均值为5000,标准差为40
D. 左偏分布,均值为5000元,标准差为12
答案:A
解析:
1.大数定律:随机事件在大量重复实验中呈现出明显的规律性,可以用频率近似代替概率 ,可以用样本均值近似代替总体均值。所以样本均值=总体均值=5000
2.中心极限定理:从非正态总体中取出一个很大的样本(n>30),那么样本均值的分布近似正态分布。
3.样本均值的标准差计算:
每个样本的方差为 \sigma^2,样本数量n=900
var(\bar X)=var(\frac{X_{1}+X_{2}+...X_{n}}{n})
=var(\frac{X_{1}}{n})+var(\frac{X_{2}}{n})+..+var(\frac{X_{n}}{n})
=\frac{1}{n^2}\left ( var(X_{1})+var(X_{2})+..+var(X_{n})) \right )
=\frac{1}{n^2}\left ( \sigma^2+\sigma^2+..+\sigma^2) \right )
=\frac{1}{n^2}\left ( n\sigma^2 \right )=\frac{\sigma^2}{n}
样本均值标准差s=\sqrt{var(\bar X)}=\frac{\sigma}{\sqrt{n}}=1200/30=40
12.抽取30个手机用户,计算出他们通话时间的方差。要用样本方差推断总体方差,假定前提是所有用户的通话时间应服从()
A. χ2分布
B. 正态分布
C. t分布
D. F分布
答案:B
解析:根据中心极限定理,当样本数量大于30时,无论总体是什么分布,样本分布都可以用正态分布代替。但是当样本量少时,只有总体是正态分布时,才能用正态分布估计总体,此时可以用样本方差估计总体方差。
13.把黑桃、红桃、方片、梅花四种花色的扑克牌按黑桃10张、红桃9张、方片7张、梅花5张的顺序循环排列。问第2015张扑克牌是什么花色?
A. 黑桃
B. 红桃
C. 梅花
D. 方片
答案:C
解析: 一次循环是10+9+7+5=31张扑克,2015/31=65,整除,所以最后一张是梅花。
14.命题A:随机变量X和Y独立,命题B:随机变量X和Y不相关。A是B的______条件。
A. 充分不必要
B. 必要不充分
C. 不充分不必要
D. 充要条件
答案:A
解析:
1.独立:变量间什么关系都没有。不相关:变量只是没有线性关系。(可能有其他关系)
2.假设A是条件,B是结论
(1)由A可以推出B,由B可以推出A,则A是B的「充分必要条件」,或者说B的充分必要条件是A;
(2)由A可以推出B,由B不可以推出A,则A是B的「充分不必要条件」;
(3)由A不可以推出B,由B可以推出A,则A是B的「必要不充分条件」;
(4)由A不可以推出B,由B不可以推出A,则A是B的「既不充分也不必要条件」。
15.假定树根的高度为0,则高度为6的二叉树最多有_______个叶节点。
A. 32
B. 64
C. 128
D. 256
答案:B
解析:从0层开始数的二叉树
第i层最多有2^i个节点,第6层,所以为64。
k层全树最多有2^(k+1)-1=127个节点
16.已知一棵树具有10个节点,且度为4,那么:
A. 该树的高度至少是6
B. 该树的高度至多是6
C. 该树的高度至少是7
D. 该树的高度至多是7
答案:D
解析:树的度:一颗树中,最大节点的度。
17.对于以下关键字{55,26,33,80,70,90,6,30,40,20},增量取5的希尔排序的第一趟的结果是:
A. 55,33,30,6,80,70,40,20,26,90
B. 55,6,30,40,20,90,26,33,80,70
C. 55,6,33,30,40,70,20,26,80,90
D. 55, 26,6,40,30,90,33,70,80,20
答案:B
解析:
希尔排序是等间隔位置数字看成一组比较的子数列,每组组内采用插入排序规则:即依次取出一个数放到数列前,数列数都是有序的。
本题:间隔为5,则{55,90}为一组排序子数列,同理{26,6},{33,30},{80,40},{70,20}分别一组,将子列依次排成有序的{55,90}{6,26},{30,33},{40,80},{20,70},回到原数列55,6,30,40,20,90,26,33,80,70
18.设二叉排序树中关键字由1到999的整数构成,现要查找关键字为321的节点,下面关键字序列中,不可能出现在二叉排序树上的查找序列是:
A. 2、252、400 、398、300、344、310、321
B. 888、231、911、244、898、256、362、366
C. 888、200、666、240、312、330、321
D. 2、398、387、219、266、283、298、321
答案:B
解析:
- 待查关键字key与根节点关键字t
如果key = t, 则返回根节点指针。
如果key < t,则进一步查找左子树。
如果key > t,则进一步查找右子树。- 排序二叉树
若左子树不空,则左子树上所有结点的值均小于或等于它的根结点的值
若右子树不空,则右子树上所有结点的值均大于或等于它的根结点的值
- 用1 * 3的瓷砖密铺3 * 20的地板有几种方式?
A. 1278
B. 872
C. 595
D. 406
答案:A
解析:f(n)表示用1 * 3的瓷砖密铺3 * n 的地板的方案数。用递推的思维想。想铺好3 * n,可以先铺3 * (n-1),最后一列竖着铺一块3 * 1;也可以先铺好f(n-3),最后的三快横着铺。那么f(n) = f(n-1)+f(n-3)。需要确定一下发,f(0),f(1),f(2)的值,f(0)=f(1)=f(2)=1。接下来可以令n=20,用递推的方式求出f(20)=1278。
答主:https://www.zhihu.com/question/279344915/answer/463832633
- 有20个人去看电影,电影票50元。其中只有10个人有50元钱,另外10个人都只有一张面值100元的纸币,电影院没有其他钞票可以找零,问有多少种找零的方法?
A. 16796
B. 16798
C. 16794
D. 16792
答案:A
解析:可以将其理解为栈,所有拿100元的人的出栈方式,就是找零方法。
- 一个足够大的栈的进栈序列为1,2,3,⋯,n时有多少个不同的出栈序列?
假设k是最后一个出栈的数。比k早进栈且早出栈的有k-1个数,一共有h(k-1)种方案。比k晚进栈且早出栈的有n-k个数,一共有h(n-k)种方案。所以一共有h(k-1)*h(n-k)种方案。显而易见,k取不同值时,产生的出栈序列是相互独立的,所以结果可以累加。k的取值范围为1至n,所以结果就为h(n)= h(0)*h(n-1)+h(1)*h(n-2) + … + h(n-1)h(0)。- 卡特兰数:
h(n)= h(0)*h(n-1)+h(1)*h(n-2) + … + h(n-1)h(0) (n>=2)
快速计算的通项公式。h(n)=c(2n,n)-c(2n,n+1)(n=0,1,2,…)。这个公式还可以更简单得化为h(n)=C(2n,n)/(n+1)。
- 好评率是会员对平台评价的重要指标。现在需要统计2018年1月1日到2018年1月31日,用户’小明’提交的母婴类目"花王"品牌的好评率(好评率=“好评”评价量/总评价量):
用户评价详情表:a
字段:id(评价id,主键),create_time(评价创建时间,格式’2017-01-01’), user_name(用户名称),goods_id(商品id,外键) ,
sub_time(评价提交时间,格式’2017-01-01 23:10:32’),sat_name(好评率类型,包含:“好评”、“中评”、“差评”)
商品详情表:b
字段:good_id(商品id,主键),bu_name(商品类目), brand_name(品牌名称)
SELECT count(sat_name = "好评")/count(sat_name) as good_rate
FROM a
LEFT JOIN b
ON a.goods_id=b.goods_id
WHERE
a.create_time between "2018-01-01'" and "2018-01-31"
AND
a.user_name = "小明"
GROUP BY b.good_id
HAVING b.brand_name = "花王" AND b.bu_name ="母婴"
- 考拉运营"小明"负责多个品牌的销售业绩,请完成:
(1)请统计小明负责的各个品牌,在2017年销售最高的3天,及对应的销售额。
销售表 a:
字段:logday(日期,主键组),SKU_ID(商品SKU,主键组),sale_amt(销售额)
商品基础信息表 b:
字段:SKU_ID(商品SKU,主键),bu_name(商品类目),brand_name(品牌名称),user_name(运营负责人名称)
(2)请统计小明负责的各个品牌,在2017年连续3天增长超过50%的日期,及对应的销售额。
在这里插入代码片
- 考拉海购始终以用户为中心,为用户提供高品质的商品,帮助用户“用更少的钱,过更好的生活”。为了满足不同用户的需求(比如新客户的要求可能跟老客户不同,流失客户需要特殊的关怀) ,请你设计一套具体的方案,合理划分不同用户,并能给出相应的建议。
划分用户,如何满足需求。
从以下三个维度划分用户,即每个用户都将被打上以下三种标签
1、新老客标签
用户设备ID是否第一次出现来区分用户是新客还是老客,对于新客可进行新客指引及提供新客首单优惠活动等。
2、人群标签
枚举值:男性、70后及70前女性、80后女性、90后女性
此标签数据来源于用户个人填写信息及其行为
各大人群偏好品牌及品类不同,可进行个性化推荐,如给男性推荐男装、运动品牌,给70后女性推荐家居品类,给80后女性推荐母婴产品,90后女性推荐化妆品等,当然这个运营人群标签可根据用户浏览/购买历史进行细化,如有女性用户浏览或购买过母婴品类,即可将其归于80后女性-已婚-有小孩
3、活跃状态标签
根据用户购买情况确定其活跃状态,如30天内有订单视为活跃用户,80天内有订单为高危用户,160天内无订单而有历史订单为流失用户等
枚举值:活跃、高危、沉睡、流失、注册未购买
对于活跃及高危人群可根据其行为推荐偏好品牌以刺激消费
对于沉睡、流失用户可进行push或短信推送优惠券及活动预告
对于注册未购买的用户则可进行相关提示,如购买首单优惠等信息
参考:https://www.nowcoder.com/profile/159098729/test/25029574/168633#summary
