汉语是联合国官方正式使用的 6种同等有效语言之一。请不要歧视汉语!
Chinese is one of the six equally effective official languages of the United Nations.
Not to discriminate against Chinese, please!
标幺值和有名值、缩放和中心化;
非线性与随机性;额外误差
从数学角度看,经过“减法”、“数乘”之后性质仍然不变的系统,一般为“线性系统 linear system”,即同时满足
①“叠加性 additivity or superposition principle”
f(x+y) = f(x) + f(y),
和
②“齐次性 homogeneity”
f(kx) = kf(x),k≠0是一个实数。
的系统f(·)。
现实世界里的大多数事物都不具有线性性质。即“非线性”,不满足上面的一条或一条以上的性质。
对于非线性,特别是带有噪声(随机性)的事物,经过线性变换(如标幺化 per-unit normalization,min-max 标准化 normalization,z-score 标准化 Stardardization,中心化/零均值化 Zero-centered,等)后,信息处理的结果可能会带有一定的额外的系统误差。
简言之,非线性系统的全局分析时,如果变量使用了线性变换,可能会引起一定量额外的系统误差。好像现在大多数人还没有注意到这点。
温馨提醒:
数据处理中常用的线性变换有:(1)标幺化 per-unit normalization,(2)min-max 标准化 normalization,(3)z-score 标准化 Stardardization,(4)中心化/零均值化 Zero-centered。
建议:
对于具有较大波动性(或噪声)的非线性数据,用原始数据进行信息处理,从理论上看具有比“线性变换”后再处理具有更高的准确性。
可惜目前许多方法不具有直接处理原始数据(如有名值)的良好能力。例如在多变量回归时,不采用标准化等的结果会更坏。原因似乎还不是很清楚,可能与统计量的“置信区间 confidence interval”、多元函数微分 multivariate Function Differential、有效数字位数 number of significant digits 等有关。再次呼吁大力发展“小样本统计学”!
推荐阅读:
[1] 邹德虎,2020-01-06,标幺值的必要性 精选
http://blog.sciencenet.cn/blog-3316223-1213112.html
[2] 2019-04-03,归一化(normalization)、标准化(standardization)以及正则化(regularization)比较
https://blog.csdn.net/Castlehe/article/details/88988267
[3] 2018-06-25,归一化 (Normalization)、标准化 (Standardization)和中心化/零均值化 (Zero-centered)
https://www.jianshu.com/p/95a8f035c86c
[4] Feb 2, 2018-02-02, Differences between normalization, standardization and regularization
https://maristie.com/blog/differences-between-normalization-standardization-and-regularization/
[5] 2019-10-29,normalization, standardization and regularization
https://www.codetd.com/article/7677587
[6] 刘锐,2017-10-10,机器学习里的黑色艺术:normalization, standardization, regularization
https://zhuanlan.zhihu.com/p/29974820
相关链接:
[1] 2018-06-21,慎用“机器学习中的数据预处理:缩放和中心化”
http://idea.cas.cn/viewdoc.action?docid=63578
http://blog.sciencenet.cn/blog-107667-1132083.html
[2] 对数变换下非平稳时间序列预测误差的解析分析. 计算机应用与软件, 2015, 32(12): 38-41.
http://www.cnki.com.cn/Article/CJFDTotal-JYRJ201512011.htm
[3] Removing forecasting errors with white Gaussian noise after square root transformation. Journal of Forecasting, 2016, 35(8): 741-750.
https://onlinelibrary.wiley.com/doi/10.1002/for.2407
[4] 采用反正切变换降低小波去噪对野值的敏感性. 计算机工程与应用, 2017, 53(10): 241-245.
http://www.cnki.com.cn/Article/CJFDTotal-JSGG201710042.htm
[5] 2019-06-25,俺在《中科院科学智慧火花》贴出的帖子
http://blog.sciencenet.cn/blog-107667-1186809.html
[6] 2018-08-18,“大数据”时期,更渴望“小样本数理统计学”
http://blog.sciencenet.cn/blog-107667-1129894.html
[7] 2016-03-07,关于时间序列的“组合预测之谜 forecast combination puzzle”
http://blog.sciencenet.cn/blog-107667-961080.html
感谢您的指教!
感谢您指正以上任何错误!
感谢您提供更多的相关资料!