1. Numpy的优势

Python已经提供了很多丰富的内置包，我们为什么还要学习NumPy呢？先看一个例子，找寻学习 NumPy 的必要性和重要性。如下：

完成同样的都对元素相加的操作，NumPy比Python快了11倍之多。这就是我们要学好NumPy的一个重要理由，它在处理更大数据量时，处理效率明显快于Python。并且内置的向量化运算和广播机制，使得使用NumPy更加简洁，会少写很多嵌套的for循环，因此代码的可读性大大增强。NumPy计算为什么这么快呢？原因如下：

Python 的 list是一个通用结构。它能包括任意类型的对象，并且是动态类型。
NumPy 的 ndarray 是 静态、同质 的类型，当ndarray对象被创建时，元素的类型就确定。由于是静态类型，所以ndarray间的加、减、乘、除用 C 和 Fortran 实现才成为可能，所以运行起来就会更快。根据官方介绍，底层代码用 C语言 和 Fortran 语言实现，实现性能无限接近 C 的处理效率。

从图中我们看出来 NumPy 其实在存储数据的时候，数据与数据的地址都是连续的，这样就给我们操作带来了好处，处理速度快。

支持并行化运算，也叫向量化运算。当然向量是数学当中的概念，我们不过多解释，只需要知道他的优势即可。也就是说 NumPy 底层使用 BLAS 做向量，矩阵运算。

numpy的许多函数不仅是用C实现了，还使用了BLAS(一般Windows下link到MKL的，下link到OpenBLAS)
基本上那些BLAS实现在每种操作上都进行了高度优化
例如使用AVX向量指令集，甚至能比你自己用C实现快上许多，更不要说和用Python实现的比

由此可见，NumPy 就非常适合做大规模的数值计算和数据分析。

2. 数组属性

数组属性反映了数组本身固有的信息。

属性名字	属性解释
ndarray.shape	数组维度的元组
ndarray.flags	有关阵列内存布局的信息
ndarray.ndim	数组维数
ndarray.size	数组中的元素数量
ndarray.itemsize	一个数组元素的长度(字节)
ndarray.nbytes	数组元素消耗的总字节数

示例代码如下：

import numpy as np

# 数组的属性
# 1.创建数组 这里先不用管 后续会详细讲解数组的创建方法
a = np.array([[1,2,3],[4,5,6]])
b = np.array([1,2,3,4])
c = np.array([[[1,2,3],[4,5,6]],[[1,2,3],[4,5,6]]])
# 创建数组的时候指定类型
# dtype更多取值: int complex bool object
# 还可以显示的定义数据位数的类型，如: int64、int16、float128、complex128。
d = np.array([1,2,3,4], dtype=np.float)

# 2.测试数组属性
print(a.shape)  # 数组形状 (2, 3): 二维数组
print(b.shape)  # (4,) 一维数组: 有4个元素
print(c.shape)  # (2, 2, 3): 三维数组
print(a.ndim)  # 数组维数 2
print(a.size)  # 元素的数量 6 
print(a.itemsize)  # 每一个元素占的位数(字节) 8
print(a.nbytes)  # 总共占的字节数 6*8 ==> 48
print(a.flags)  # 阵列内存布局
print(a.dtype)  # 数组类型 int64
print(d.dtype)  # float64

上述代码执行结果如下：

3. 创建数组

1. 创建0和1的数组示例代码如下：

2. 从现有的数据中创建示例代码如下：

num_list = [[1,2,3], [4,5,6]]
a = np.array(num_list)
a1 = np.array(a)  # 创建了一个新的数组
a2 = np.asarray(a)  # 还是引用原来的数组
print(a)
print(a1)
print(a2)
a[0] = 10
a, a1, a2

上述代码执行结果如下：

3. 创建固定范围的数组，语法格式如下：

np.linspace(start, stop, num, endpoint, retstep, dtype) 生成等间隔的序列
start：序列的起始值
stop：序列的终止值
num：要生成的等间隔样例数量，默认为50
endpoint：序列中是否包含stop值，默认为True
retstep：如果为True，返回样例，以及连续数字之间的步长
dtype：输出ndarray的数据类型

示例代码如下：

arr = np.linspace(0, 10, 10)
arr

执行结果如图所示：

其它的还有：

numpy.arange(start,stop, step, dtype) 示例代码如下：
```
np.arange(1, 10, 2)
```
运行结果如图所示：
numpy.logspace(start,stop, num, endpoint, base, dtype) 构造一个从10的-2次方 到 10的2次方 的等比数列，这个等比数列的长度是 10 个元素，示例代码如下：
```
np.logspace(-2,2,10)
```
运行结果如图所示：

如果不想是10的次方，也就是想改变基数，那么可以这么写，代码如下：
```
np.logspace(-2,2,10,base=2)
```
运行结果如图所示：

4. 创建随机数组

np.random 模块生成随机数组，更加方便，示例代码如下：

上面产生的数据是属于一个均匀分布。那么什么是均匀分布呢？在概率论和统计学中，均匀分布也叫矩形分布，它是对称概率分布，在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义，它们是数轴上的最小值和最大值，通常缩写为U(a，b)。

正态分布？给定均值／标准差／维度的正态分布，示例代码如下：

正态分布是一种概率分布。正态分布是具有两个参数μ和σ的连续型随机变量的分布，第一参数μ是服从正态分布的随机变量的均值，第二个参数σ是此随机变量的方差，所以正态分布记作N(μ，σ )。

生活、生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。μ决定了其位置，其标准差σ。决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

标准差如何来？方差是在概率论和统计方差衡量一组数据时离散程度的度量。

其中M为平均值，n为数据总个数，s为标准差，s^2可以理解一个整体为方差。

通过索引切片等获取数组中的值，一维数组示例代码如下：

二维数组示例代码如下：

三维数组示例代码如下：

4. 数组形状与类型变化

1. ndarray.reshape(shape[, order]) Returns an array containing the same data with a new shape. 示例代码如下：

2. ndarray.resize(new_shape[, refcheck]) Change shape and size of array in-place. 示例代码如下：

3. 修改类型 ndarray.astype(type) 示例代码如下：

4. 修改小数位数 ndarray.round(arr, out) Return a with each element rounded to the given number of decimals. 示例代码如下：

5. ndarray.flatten([order]) Return a copy of the array collapsed into one dimension. 示例代码如下：

6. ndarray.T 数组的转置将数组的行、列进行互换 示例代码如下：

7. ndarray.tostring([order])或者ndarray.tobytes([order]) Construct Python bytes containing the raw data bytes in the array. 转换成bytes

8. ndarray.copy([order]) Return a copy of the array. 当我们不想修改某个数据的时候，就可以去进行拷贝操作。在拷贝的数据上进行操作，示例代码如下：

4. 数组运算

4.1 逻辑运算

通用判断函数，np.all()，示例代码如下：

np.unique()：返回新的数组的数值，不存在重复的值，示例代码如下：

np.where (三元运算符)：通过使用np.where能够进行更加复杂的运算，示例代码如下：

4.2 统计运算

在数据挖掘/机器学习领域，统计指标的值也是我们分析问题的一种方式。注意：进行统计的时候，axis轴 的取值并不一定, NumPy中不同的API轴的值都不一样，在这里，axis 0代表列, axis 1代表行 去进行统计。常用的指标如下：

min(a[, axis, out, keepdims]) Return the minimum of an array or minimum along an axis. 示例代码如下：
max(a[, axis, out, keepdims]) Return the maximum of an array or maximum along an axis. 示例代码如下：
median(a[, axis, out, overwrite_input, keepdims]) Compute the median along the specified axis. 示例代码如下：
mean(a[, axis, dtype, out, keepdims]) Compute the arithmetic mean along the specified axis. 示例代码如下：
std(a[, axis, dtype, out, ddof, keepdims]) Compute the standard deviation along the specified axis. 示例代码如下：
var(a[, axis, dtype, out, ddof, keepdims]) Compute the variance along the specified axis. 示例代码如下：
np.argmax(temp, axis=) 示例代码如下：
np.argmin(temp, axis=) 示例代码如下：

4.3 数组间运算

数组与数的运算，示例代码如下：

矩阵运算，什么是矩阵？矩阵，英文matrix，和array的区别矩阵必须是2维的,但是array可以是多维的。示例代码如下：

4.4 合并分割

numpy.concatenate((a1, a2, …), axis=0) 示例代码如下：
numpy.hstack(tup) Stack arrays in sequence horizontally (column wise). 示例代码如下：
numpy.vstack(tup) Stack arrays in sequence vertically (row wise). 示例代码如下：
numpy.split(ary, indices_or_sections, axis=0) Split an array into multiple sub-arrays. 示例代码如下：

切割如果不太懂的话，可以点击此处参考学习。

• 你真的搞懂贝叶斯滤波了吗？	• TCP/IP、OSI参考模型与5G 协议
• 计算机网络模型与5G协议	• Bespin Global荣膺“Gartner2020全球公有云基础
• 光猫路由器一体机安装和千兆网络	• 电信专业人才选拔条件

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享
• STM32查询式按键输入[直接用寄存器]	• Ubuntu系统 USB设备端口绑定
• 2021-04-14 第四次按键输入实验	• Flutter扫码功能完美实现

• 谈谈Spring中的对象跟Bean，你知道Spring怎么创	• 面试\|有关字符串中字符出现重复字符的面试问题
• 老王的JAVA基础课：第4课以hello world学习基	• 配置SpringBoot项目热部署
• 我的Java学习之路（九）-- 模拟斗地主扑克牌发	• 深入浅出的Java面向对象编程，助你深入探索开发
• 关于blob与流互转的问题	• 在Java中MD5、SHA、SHA256、SHA512加密的实现[
• Java设计模式---原型模式	• spring boot整合mybatis+druid和多数据源外加dr

Python数据挖掘基础(二)：Numpy

目录