本篇博文主要想谈一谈标准化或归一化。
细心的读者会发现在谈到标准化和归一化的时候,我使用的连词是“或”。原因在于,我认为两者并没有什么不同。很多人将标准化和归一化区分开来,实际上归一化和标准化都是 Normalization 的一种翻译,指的其实是同一个东西。下文中将使用标准化一词。
标准化是什么
在数据挖掘中,标准化是将数据按比例缩放,使之落入一个小的特定区间。
标准化的作用
不同的特征往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除特征之间的量纲影响,需要进行数据标准化处理,以解决数据特征之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比分析。
标准化的方法
标准化的方法有很多种,以下是对不同的标准化方法之间的介绍和比较: