统计学 --- 基础概念1 平均数、众数、中位数、极差、方差,标准差、频数、频率 以及numpy相关函数
1、平均数
1.1 定义
均值即为算术平均水平数值,在统计学中被广泛应用于描述一组数据的整体趋势;其中算术均值又被划分为简单算术均值与加权算术均值两种类型;而几何均值则定义为其定义为取n项乘积的n次方根,在数据分析中尤其适用于处理比率型数据序列,并主要用来评估数据集的整体增长幅度或变化趋势;同样地,在几何均值中也存在简单几何均值与加权几何均值之分。
1.2 计算方法
最简单的算术平均数。
常用于处理未经分组的原始数据。对于一个样本数据集 X=\{X_1,X_2,\dots,X_n\} 而言,
其算术平均值通常表示为:
\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i

使用Python语言中的numpy库进行数据处理。
numpy.mean()函数用于计算数组中元素的算术平均值。
当指定轴时,在该轴上进行计算。
数学表达式为:numpy.mean(a, axis=None, dtype=None, out=None, keepdims=)
import numpy as np
a = np.array([[1,2,3],[3,4,5],[4,5,6]])
print ('数组是:')
print (a)
print ('\n')
print ('调用 mean() 函数:')
print (np.mean(a))
print ('\n')
print ('沿轴 0 (纵轴)调用 mean() 函数:')
print (np.mean(a, axis = 0))
print ('\n')
print ('沿轴 1(横轴) 调用 mean() 函数:')
print (np.mean(a, axis = 1))
# 输出如下
数组是:
[[1 2 3]
[3 4 5]
[4 5 6]]
调用 mean() 函数:
3.6666666666666665
沿轴 0 调用 mean() 函数:
[2.66666667 3.66666667 4.66666667]
沿轴 1 调用 mean() 函数:
[2. 4. 5.]
AI写代码
加权算术平均

python numpy 代码实现
import numpy as np
# Original array
array = np.arange(5)
print(array)
weights = np.arange(10, 15)
print(weights)
# Weighted average of the given array
res1 = np.average(array, weights=weights)
print(res1)
# 输出
[0 1 2 3 4]
[10 11 12 13 14]
2.1666666666666665
AI写代码
简单算数平均数是加权算数平均数的极端体现,即每个数的频次为1
几何平均数

python numpy 代码实现
import numpy as np
data = [2, 3, 4, 5, 6]
gm = np.geometric_mean(data)
print("几何平均值为:", gm)
AI写代码
几何加权平均数

以下为几何加权平均数的具体实例:假设某地的储蓄存款年利率分别为5%(以复利方式计息)持续1.5年、3%(以复利方式计息)持续2.5年以及2.2%(以复利方式计息)持续1年,则在这一段时间内期间内计算的结果即为所求的平均储蓄利率。具体计算如下:

2、 中位数
2.1 定义
median, also known as the median, refers to the middle value of a group of data arranged in order. That is, in a sorted set of data, half of the values are greater than this central value and half are less than it. Here, m_{0.5} is used to denote the median.
2.2 计算方法
将一组原始数值按照降序排列后进行分析。当所列数据项数量为奇數時,则该组數據中最位於中心位置之數據為此數據集合之中位數值;而當數據項數量為偶數時,则需計算出兩個居於中心位置之數據並取其算術平均作為此數據序列之中位數值。

2.3 python numpy 代码实现
numpy.median() 该函数用于计算数组 a 中元素的中位数(中值)。
调用格式为 numpy.median(a, axis=None, out=None, overwrite_input=False, keepdims=
import numpy as np
a = np.array([[30,65,70],[80,95,10],[50,90,60]])
print ('我们的数组是:')
print (a)
print ('\n')
print ('调用 median() 函数:')
print (np.median(a))
print ('\n')
print ('沿轴 0 调用 median() 函数:')
print (np.median(a, axis = 0))
print ('\n')
print ('沿轴 1 调用 median() 函数:')
print (np.median(a, axis = 1))
AI写代码
输出如下
我们的数组是:
[[30 65 70]
[80 95 10]
[50 90 60]]
调用 median() 函数:
65.0
沿轴 0 调用 median() 函数:
[50. 90. 60.]
沿轴 1 调用 median() 函数:
[65. 80. 60.]
3、极差
3.1 定义
极差即最大值与最小值的差
3.2 计算方法
极差= 最大值-最小值
3.3 python numpy 代码实现
import numpy as np
# 创建一个示例数组
a = np.array([[3, 7, 5], [8, 4, 3], [2, 4, 9]])
print('我们的数组是:')
print(a)
# 计算整个数组的极差
print('调用 ptp() 函数:')
print(np.ptp(a))
# 沿轴 1 计算极差
print('沿轴 1 调用 ptp() 函数:')
print(np.ptp(a, axis=1))
# 沿轴 0 计算极差
print('沿轴 0 调用 ptp() 函数:')
print(np.ptp(a, axis=0))
AI写代码
4、方差
4.1 定义
衡量一组数据波动程度大小的标准,
样本方差的数学符号为 s^2 ,
计算方法是先求出每个数据点与均值之差的平方,
然后取这些平方差的平均数。
衡量一组数据波动程度大小的标准,
样本方差的数学符号为 s^2 ,
计算方法是先求出每个数据点与均值之差的平方,
然后取这些平方差的平均数。
4.2 计算方法

4.3 python numpy 代码实现
numpy.var(a,axis=None,dtype=None,out=None,ddof=0,keepdims= <no value>)
# Python program to get variance of a list
# Importing the NumPy module
import numpy as np
# Taking a list of elements
list = [2, 4, 4, 4, 5, 5, 7, 9]
# Calculating variance using var()
print(np.var(list))
AI写代码
5、标准差
5.1 定义
标准差(standard deviation)被称为方差的二次方根,在统计学中具有重要的应用价值;然而,在实际应用中,我们通常关注的是其数值属性——即标准差的数值大小与其观测数据的标准相关。
5.2 计算方法

5.3 python numpy 代码实现
numpy.std(a,axis=None,dtype=None,out=None,ddof=0,keepdims= <no value>)
# Python program to get
# standard deviation of a list
# Importing the NumPy module
import numpy as np
# Taking a list of elements
list = [2, 4, 4, 4, 5, 5, 7, 9]
# Calculating standard
# deviation using var()
print(np.std(list))
AI写代码
6、众数
6.1 定义
模(mode)是一种反映变量值分布中心位置统计指标,在统计学中具有重要地位。模属于位置平均指标,在计算时不受极端值的影响特性使其在分析中具有特殊作用。模主要适用于测定定性资料分布中心位置的一种指标同时也可用来测定顺序资料和数量型资料分布中心位置的一种指标需要注意的是同一份资料可能存在多个模值或者也有可能没有模数组别对于未经分组处理的数量型资料一般来说我们不会采用模作为其代表值
7、频数
7.1 定义
频数,就是某个数字或者某个类别出现的次数
7.2 python numpy 代码实现
a=[1,2,2,3,5,6,7,8,4,4,9]
new_a , a_index ,a_inverse ,a_count= np.unique(a,return_index=True,retur
n_inverse=True,return_counts=True)
print(new_a)
print(a_count)
AI写代码
其他
∑ 被用作累加符号,在数学中被广泛应用于求和运算。它源自于希腊字母σ的大写形式,并发音为sigma。作为累加运算的核心符号,在统计学、微积分等领域有着重要的应用价值。特别地,在处理多维数据时,默认情况下∑代表的是面密度概念(与体密度ρ、线密度η形成对比)。



∏ 是累乘符号,在数学中用于表示连续相乘的过程;它是希腊字母π的大写形式,并发音为pai或PI;而小写字母π通常用来表示圆周率。

或者

引用
国家统计局发布2023年1月份经济数据统计公报。
公报显示,全国规模以上工业增加值同比下降1.2%,扣除价格因素后下降1.6%。
分行业看,农副食品加工业增加值同比增长4.5%,纺织服装业增长7.8%,汽车制造业增长8.9%。
住宿餐饮业则呈现下降趋势,其中酒店业下降6.7%,餐饮业下降8.1%。
综合来看,我国经济在复杂多变的国际形势下展现出较强的韧性和潜力。
随着云计算技术的快速发展,开发效率不断提升,企业利用云计算实现业务转型已成为大势所趋。
特别是在数字化转型背景下,云计算服务为企业创造价值的作用愈发显著。
目前,云原生应用模式逐渐成为企业采用的主要部署方式之一。
通过构建灵活高效的服务架构,企业能够更好地满足多样化的业务需求。
未来随着技术不断演进和完善,云计算将在更多领域发挥更大的作用。
