在此记录自己学习python数据分析过程中学到的一些数据处理的小技巧。
1.数据的读取
#导入numpy库和pandas库
import numpy as np
import pandas as pd
#读取待处理的数据
#file_path为文件路径名,sheet_name为需要读取的excel数据页
data=pd.read_excel(file_path,sheet_name)
#显示数据前5行
data.head()
数据读取的结果:
由读取结果可以看出,时间序列数据并不规范,需要做进一步的处理。接下来将’/‘转化为’-’,并只保留时间到秒,并将时间转化为timestamp格式。
2.时间数据处理以及转化为timestamp格式
#将'/'替换为'-'
data["时间"]=data["时间"].str.replace("/","-").str[0:19]
#将时间格式化为timestamp格式
data["时间"]=pd.to_datetime(data["时间"],format='%Y-%m-%d %H:%M:%S')
# 将时间设置为索引
data.set_index('时间',inplace=True)
data.head()
处理结果:
由上图可知,我们的时间序列数据已经处理好了,并且已经转化为timestamp格式,对于后续的数据处理与分析提供便利。