提高变量相关程度的技术思路(之一例)?
张学文,2021 06 20
从数据中寻找客观规律是科学工作的主要课题、使命与技术。最近我在分析乌鲁木齐的月平均气温的年变化数据时发现,其一个相关质量不算高的关系,略作处理,相关程度却提高很多。这里介绍其情况、思路、做法。
基本数据很简单,就是5年的乌鲁木齐月平均气温的数值。它们如下表
cos(月份)
月平均气温
1:
-0.86602
-12.9646
2:
-0.5
-8.96244
3:
1.33E-06
2.387688
4:
0.500001
12.44336
5:
0.866026
17.6468
6:
1:
21.89899
7:
0.866026
23.21083
8:
0.500001
23.00188
9:
1.33E-06
17.98719
10:
-0.5
10.14129
11:
-0.86602
0.340361
12:
-1
-9.39785
在表中考虑到时间,即月份其实是一个轮回的变量,它不存在13月,18月等等,于是我们用一个周期函数,如余弦函数cos表示它是可取的。于是有了上面的表。
而基于这个月份的余弦函数关系与月气温的关系我们自然可以分析其关系而获得如下的图
显然这个图表示月份的余弦值大则气温高。其表达相关质量的R平方值=0.7531.即存在明显的正相关。
这个结果可以接受,我们可以利用月份的余弦值反算气温。它是表示月份与气温的一种公式化的途径,办法,函数。把它作为研究成果是可以的。
但是,这种公式表达气温的质量显然不是很好。那么是否有改进的余地?
不经意间我发现,如果我们把月份所对应的余弦值移动一个月,把1月的余弦值移到2月,12月移动到1月,以此类推。那么我们就获得了如下的图(依然是月份余弦与气温,即把前面表中第2列的cos值数据下移一格,把12月的数据填入1月份位置)。
显然,把月份对应的余弦值位移一个月,则它与气温的线性关系的质量提高了很多。R平方值从原来的0.75提高到了0.96.这已经很接近于理想值,1,了。
简单地说:在分析月份与气温的关系时,如果我们把月份改为月份的余弦值,而且把月份提取一个月,则月份余弦与月平均气温的关系质量就提高了很多。
月平均气温本来就是一个12个月(360度,2∏)一轮回的变量,什么是1月(30度,)分本来就是人类说了算的。我们把1月份对应的余弦值平移一个月,不是人为修改自然规律,仅是明确了余弦计算中的一月份对应的角度是什么(1年对应360度,一个月对应30度)。这是探索科学规律的一个进程,不是篡改数据。
不知道您如何看待这种分析。