mysql 增长率_电子游戏销售分析(基于MySQL+Tableau)
一.分析背景和目的
本文探讨近年来电子游戏行业在全球的发展趋势,并系统阐述其销售故事。
二.提出问题
1.近年来电子游戏行业的发展情况如何?
首先,请问有哪些类型的电子游戏最为流行?其次,在全球范围内和地区的具体发行情况又是怎样的?
3.影响销售额递增或者锐减的游戏是哪些?
以上的分析结果导入Tableau制作“电子游戏销售分析”故事
三.理解数据
1.数据来源
https://www.kaggle.com/competitions
2.数据集大小
共16598行,11列
3.字段含义

四.数据清洗
通过数据库管理工具 Navicat 将数据集导入 MySQL 数据库,并命名表为vg
1.选择子集
本文已选取1.6万条数据,所有列都有意义,无需再处理
2.列的重命名
ALTER TABLE vg CHANGE rank 排名 int unsigned primary key;
ALTER TABLE vg change NAME 名称 varchar(255);
ALTER TABLE vg change Platform 平台 varchar(255);
ALTER TABLE vg change Year 发行年份 varchar(255);
ALTER TABLE vg change Genre 类型 varchar(255);
ALTER TABLE vg change Publisher 发行商 varchar(255);
ALTER TABLE vg change NA_Sales 北美地区销售额 varchar(255);
ALTER TABLE vg change 欧洲地区销售 欧洲地区销售额 varchar(255);
ALTER TABLE vg change JP_Sales 日本地区销售额 varchar(255);
ALTER TABLE vg change Other_Sales 其他地区销售额 varchar(255);
ALTER TABLE vg change Global_Sales 全球销售额 varchar(255);

3.删除重复值
Select *, count(*)
from vg
group by 名称,平台,发行年份,类型,发行商,北美地区销售额,欧洲地区销售额,日本地区销售额,其他地区销售额,全球销售额
having count(*) > 1;
发现一条重复值:

删除:
delete from vg where 排名 = 15000;
4.缺失值处理
在创建表格的时候,6个字段均定义为NOT NULL,数据导入保证没有缺失值
5.异常值处理
新建数据表后可发现2017-2020数据较少,所以只保留1980-2016的数据
delete from vg
where 发行年份 not between 1980 and 2016;
现剩余16323行数据

五.构建模型与数据分析
1.将数据集按照发行年份,类型,平台,发行商分组,整理如下
select 发行年份,类型,平台,发行商,
round(sum(全球销售额),2) as 全球销售额,
round(sum(北美地区销售额),2) as 北美地区销售额,
round(sum(欧洲地区销售额),2) as 欧洲地区销售额,
round(sum(日本地区销售额),2) as 日本地区销售额,
round(sum(其他地区销售额),2) as 其他地区销售额
from vg
group by `平台`,`发行年份`,`类型`,`发行商`;
以下是部分数据截图:

2.将上述结果导入Tableau,进行数据分析与可视化
1)近年来电子游戏行业的发展情况如何?
制作“电子游戏发展总览”仪表板

从“电子游戏发展总览”仪表板可知,
从1980年至1995年间,电子游戏行业的发展较为平缓。自1996年起逐步加速发展。该行业在20世纪末期经历了短暂的巅峰期后,在进入新世纪后逐渐呈现回退趋势
各地区的社会发展水平存在显著差异;按销售额 descending排序排列,则北美地区位居榜首
③1996年、2001年的销售额激增、2016年销售额锐减,下文分析原因。
2)最畅销的电子游戏有哪些?它们分别是在哪些平台发布的?在全球范围内或根据不同地区的具体情况又是怎样的?
搭建一个关于'最受欢迎电子游戏类型、发行平台及发行商在不同地区市场的销量表现'的分析仪表板;

从上述仪表板可知,
在参数设置中选择"类型":最受青睐的电子游戏类型依次包括动作类、体育类、射击类、角色扮演类以及平台类游戏;全球大范围内的玩家对不同类型的游戏喜好大致相同;但值得注意的是日本玩家则更倾向于选择角色扮演类的游戏。
在参数设置中选择"平台"选项:最受欢迎的游戏在不同发行平台上表现差异显著。具体来说,在PS2平台上最受欢迎的游戏主要面向欧美市场,在Xbox 360平台上最受欢迎的游戏则适合北美地区玩家,在PlayStation 3平台上最受欢迎的游戏则受到欧洲玩家的青睐,在Wii平台上最受欢迎的游戏适合亚洲市场,在Nintendo DS平台上最受欢迎的游戏则受到日本玩家的喜爱,在PlayStation 2平台上受欢迎程度较高的游戏也适合欧美市场观众。
当我们在设置中选择'发行商'时:主要的游戏有哪些有哪些有哪些有哪些有哪些有哪些有哪些有哪些有哪些有哪些有哪些有哪些有哪些有哪些有哪些有有有有有有有有有有有有有有什么有什么有什么有什么有什么有什么有什么有什么有什么有什么有什么什么?如Nintendo、Electronic Arts和Activision等公司是目前 games销量表现最突出的平台运营商之一。通过分析堆积柱状图可以看出,在这些主要平台运营商中 Nintendo与Electronic Arts是唯一一家总销售额均超过10亿美元的企业。观察折线图进一步发现,在日本市场的游戏销量中 Nintendo占据最大份额,并且紧随其后的是Sony公司。这表明日本市场对本地开发的游戏表现出更高的偏好。
基于1996年和2001年的显著增长以及2016年的大幅下降现象,请确定决定销售额的主要游戏类型。
依据发行年份和类型进行分类统计,在1996年、2001年及2016年分别计算不同游戏类型销售额的增长率。
create table a (发行年份 varchar(20) not null, 类型 varchar(20) not null, 全球销售额(1995) varchar(20) not null);
insert into a
select 发行年份,类型,round(sum(全球销售额),2) as 全球销售额
from vg
where 发行年份 = '1995'
group by `发行年份`, `类型`;
create table b (发行年份 varchar(20) not null, 类型 varchar(20) not null, 全球销售额(1996) varchar(20) not null);
insert into a
select 发行年份,类型,round(sum(全球销售额),2) as 全球销售额
from vg
where 发行年份 = '1996'
group by `发行年份`, `类型`;
select b.`发行年份`,b.`类型`,
concat(round(100*(b.`全球销售额(1996)`-a.`全球销售额(1995)`)/a.`全球销售额(1995)`,2),'%')as 同比1995年的销售额增长率
from a left join b on a.`类型` = b.`类型`;
以下是部分数据截图:

通过该方法归纳出2001年与2016年两年的销售额增长率数据,并将其后导入至Tableau软件中,在此基础上创建一个"影响销售额变动趋势的游戏分析仪表板"

从“影响销售额递增或者锐减的游戏”仪表板可知:
1996年时,在全球范围内迅速流行起来的有Adventure(冒险)、Actionr(动作)等三大类游戏;同时其他类别游戏也同样受到关注并呈现增长态势。
②在2001年,Simulation(仿真)类型开始被广泛的人群接受。
2016年时,所有游戏销售额大幅下降,并且负增长的比例差异不大;这表明电子游戏逐渐离开了人们的视野
六.制作“电子游戏销售分析”故事

