什么是预处理:
前面是原始数据,后面是处理后的数据。
特征预处理就是通过一些转换函数将特征数据转换成更加适合算法模型的特征数据的过程
包括内容:归一化和标准化。
比如下面这个例子
我们在计算两个数据之间区别时,但是可以看到里程数很大,会影响后面几个特征值的距离,所以我们必须要对数据进行处理
为什么要归一化标准化
归一化:
比如我们计算左上角那个90的x'= (90-60)/(90-60)=1
min是这一列的最小值,反之。x''=1*(1-0)+0=1 mx和mi默认值为1或0
如何在sklearn中使用?
def minmax_demo():
"""
归一化
:return:
"""
# 1、获取数据
data = pd.read_csv("dating.txt")
# 只要前三列数据,加上所有行数据
data = data.iloc[:, :3]
print("data:\n", data)
# 2、实例化一个转换器类
transfer = MinMaxScaler(feature_range=[2, 3])
# 3、调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new)
return None
约会数据
看一下运行结果