前面介绍的归一化如果有异常值会干扰数据,并不是很通用,只适用于传统精确小数据的场景
下面我们来介绍标准化
比如下面这个:加上了异常值,数据的范围还是比较固定的。
下面我们继续用sklearn来进行计算
# 1、获取数据
data = pd.read_csv("dating.txt")
data = data.iloc[:, :3]
print("data:\n", data)
# 2、实例化一个转换器类
transfer = StandardScaler()
# 3、调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new)
return None
输出如下图所示
这个东西在已有样本的情况下比较稳定,适合现代嘈杂的大数据环境