PYTHON实现对CSV文件多维不同单位数据的归一化处理

最近需要用PYTHON对一些CSV文件进行K-NN建模，但是各维数据的单位不同，想顺便问问应该用什么方法对数据进行预处理，只做归一化处理的话够么

推荐答案 2017-06-05

1）线性归一化
这种归一化比较适用在数值比较集中的情况，缺陷就是如果max和min不稳定，很容易使得归一化结果不稳定，使得后续的效果不稳定，实际使用中可以用经验常量来代替max和min。
2）标准差标准化
经过处理的数据符合标准正态分布，即均值为0，标准差为1。
3）非线性归一化
经常用在数据分化较大的场景，有些数值大，有些很小。通过一些数学函数，将原始值进行映射。该方法包括log、指数、反正切等。需要根据数据分布的情况，决定非线性函数的曲线。
log函数：x = lg(x)/lg(max)
反正切函数：x = atan(x)*2/pi
Python实现
线性归一化
定义数组：x = numpy.array(x)
获取二维数组列方向的最大值：x.max(axis = 0)
获取二维数组列方向的最小值：x.min(axis = 0)
对二维数组进行线性归一化：
def max_min_normalization(data_value, data_col_max_values, data_col_min_values):
""" Data normalization using max value and min value

Args:
data_value: The data to be normalized
data_col_max_values: The maximum value of data's columns
data_col_min_values: The minimum value of data's columns
"""
data_shape = data_value.shape
data_rows = data_shape[0]
data_cols = data_shape[1]

for i in xrange(0, data_rows, 1):
for j in xrange(0, data_cols, 1):
data_value[i][j] = \
(data_value[i][j] - data_col_min_values[j]) / \
(data_col_max_values[j] - data_col_min_values[j])

标准差归一化
定义数组：x = numpy.array(x)
获取二维数组列方向的均值：x.mean(axis = 0)
获取二维数组列方向的标准差：x.std(axis = 0)
对二维数组进行标准差归一化：
def standard_deviation_normalization(data_value, data_col_means,
data_col_standard_deviation):
""" Data normalization using standard deviation

Args:
data_value: The data to be normalized
data_col_means: The means of data's columns
data_col_standard_deviation: The variance of data's columns
"""
data_shape = data_value.shape
data_rows = data_shape[0]
data_cols = data_shape[1]

for i in xrange(0, data_rows, 1):
for j in xrange(0, data_cols, 1):
data_value[i][j] = \
(data_value[i][j] - data_col_means[j]) / \
data_col_standard_deviation[j]

非线性归一化（以lg为例）
定义数组：x = numpy.array(x)
获取二维数组列方向的最大值：x.max(axis=0)
获取二维数组每个元素的lg值：numpy.log10(x)
获取二维数组列方向的最大值的lg值：numpy.log10(x.max(axis=0))
对二维数组使用lg进行非线性归一化：
def nonlinearity_normalization_lg(data_value_after_lg,
data_col_max_values_after_lg):
""" Data normalization using lg

Args:
data_value_after_lg: The data to be normalized
data_col_max_values_after_lg: The maximum value of data's columns
"""

data_shape = data_value_after_lg.shape
data_rows = data_shape[0]
data_cols = data_shape[1]

for i in xrange(0, data_rows, 1):
for j in xrange(0, data_cols, 1):
data_value_after_lg[i][j] = \
data_value_after_lg[i][j] / data_col_max_values_after_lg[j]

温馨提示：答案为网友推荐，仅供参考

当前网址：http://77.wendadaohang.com/zd/G8NGpGvYG88W8YYYG8q.html

相似回答

python中怎么处理csv文件答：就是内容用逗号隔开，后缀是‘.csv’的文件。它可以被任何一个文本编辑器打开。如果用excel打开，它又可以是这样的：END 读CSV 典型的可处理的csv文件，通常含有表头，也就是每列的列名。这样一来，每一行的内容就可以被当作是以表头为key的字典。于是可以使用csv定义的类：class csv.DictReader(csvfi...

如何用python处理csv文件答：csv模块是Python内置的模块，可以直接import import csv 可以参考:https://docs.python.org/2/library/csv.html http://www.cnblogs.com/sislcb/archive/2008/12/15/1355481.html

如何用python把多个csv文件数据处理后汇总到新csv文件答：可以用pandas读取数据，首先把文件方同一个文件价里，然后对当前文件价的所有内容循环读取，在对读取到的数据处理一下，判断大于1000米的个数，大循环外面定义两广序列，存放文件名和个数，大循环结束后将两广数组组成Dataframe保持到一个新csv里，思路大概是这样。不明白的可以继续问。

python对多个csv文件里提取指定列汇总到一个新生成的csv文件答：return map( callback, filter(None, map(parser, handle)) )def storage(filename, dataserial, spliter=','): """将数据序列按行存储到指定文件, 每一序列元素间用指定的字符分割""" with open(filename,

python处理csv数据答：假设：你的表格叫test.xlsx，有一个表叫Sheet1，在读取的时候跳过第一行，使用列1和2，就可以用以下的方法，再转换成数组即可。import pandas as pdimport numpy as npSheet1 = pd.read_excel('test.xlsx', sheet_name='Sheet1', skiprows=1, usecols=[1, 2])print(Sheet1)Sheet1 =np....

开启数据分析的大门-数据收集:Python对文件的操作答：下面这段代码以只读方式采用’UTF-8’编码方式打开当前目录下的text1.txt文件，并输出到屏幕上。操作完毕后，关闭文件。小贴士：在从tushare平台获取数据时，每个用户会分配到一个key，我们可以把这个key封装到这个文件里。为的是数据安全和便利性。Python对数据的处理主要是csv文件格式，Excel和数据库。

简答题如何操作可以把两个包含不同变量的数据文件合并答：python merged_df.to_csv('merged_file.csv', index=False)或者保存为Excel文件：python merged_df.to_excel('merged_file.xlsx', index=False)这样，就成功地将两个包含不同变量的数据文件合并成一个文件了。需要注意的是，在合并过程中可能会遇到数据类型不匹配、缺失值处理等问题，需要根据具体情况...