Spss分析身高与体重的相互影响
姓名:刘海艳
班级:11电商班
学号:14113201683
序号:26
一、案例介绍:这是某幼儿园学生的身高体重数据,数据中主要包括编号,学生姓名,性别,学生年龄,每个学生的体重以及身高数值。主要是看下幼儿园学生体重与身高的相互关系。
二、研究案例的目的:分析幼儿园学生身高体重的相互关系和影响。
三、下面是数据来源:
四、研究的方法:主要是使用spss中的描述统计分析和线性回归分析;在描述统计分析中主要是分析出身高体重的最大值和最小值、均值,在图表中可以看出身高的最大值;在线性回归分析中主要是采用身高为自变量,体重为因变量来进行分析的。
五、研究的结果:
1)描述分析:
打开文件“某班23名同学的身高、体重、年龄数据”,通过菜单兰中的分析选项,进行描述性分析,选择体重和身高,求最大值最小值和均值,得到如下结果:
从结果看出,该班学生样本数为23,体重最小值为13.7kg,最大值为23kg,平均体重为17.7167kg。身高最小值为105cm,最大值为116cm,平均身高为108.85cm。
以身高为例子,选择描述中的频率选项可以得出分布,在频率对话框的图形选项中,选择条形图,即可用图形直观看到结果。
从图形中可以很直观的看出不同身高段的人数分布情况,其中108cm左右的人数最多。从表格中则可以清楚地看到具体数目。
2)线性回归分析:
选择分析——回归——线性,在弹出的对话框中,以身高作为自变量,体重作为因变量,结果如下:
从表中可以得出。R=0.223,即两者具有弱相关性。
从图表中,可以看出它们之间的线性关系大概可以表示为y=-0.139x+2.617
六、研究结论:
从描述分析和回归分析可以身高和体重的相关性是相对比较弱的,也就是弱相关性。
关于某班级2012考试成绩、获奖情况统计分析
报告
一、数据介绍:
本次分析的数据为某班级学号排列最前的15个人在2012学习、获奖统计表,其中共包含七个变量,分别是:专业、学号、姓名、性别、第一学期的成绩、第二学期的成绩、考级考证数量,通过运用spss统计软件,对变量进行频数分析、描述分析、探索分析、交叉列联表分析,以了解该班级部分同学的综合状况,并分析各变量的分布特点及相互间的关系。
二、原始数据:
三、数据分析
1、频数分析
(1)第一学期考试成绩的频数分析
进行频数分析后将输出两个主要的表格,分别为样本的基本统计量与频数分析的结果
1)样本的基本统计量,如图1所示。样本中共有样本数15个,第一学期的考试成绩平均分为627.00,中位数为628.00,众数为630,标准差为32.859,最小值为568,最大值为675。“第一学期的考试成绩”的第一四分位数是602,第二四分位数为628,第三四分位数为657。
2)“第一学期考试成绩”频数统计表如图2所示。
3)“第一学期考试成绩”Histogram图统计如图3所示。
(2)、第二个学期考试成绩的频数分析
1)样本的基本统计量,如图4所示。第二学期的考试成绩平均分为463.47,中位数为452.00,众数为419,标准差为33.588,最小值为419,最大值为522。“第二学期的考试成绩”的第一四分位数是435,第二四分位数为452,第三四分位数为496。
3)“第二学期考试成绩”频数统计表如图5所示。3)“第二学期考试成绩”饼图统计如图6所
2、描述分析
描述分析与频数分析在相当一部分中是相重的,这里采用描述分析对15位同学的考级考证情况进行分析。
输出的统计结果如图7所示。从图中我们可以看到样本数15,最小值1,最大值4,标准差0.941等统计信息。
3.探索分析。
探索分析能够对变量进行更为深入、详尽的描述性统计分析。下面就利用探索式分析对不同性别的同学获奖情况进行探索分析。
1)在结果输出窗口中将看到如下统计数据。如图8所示,给出了输出的观察量。
2)图9所示给出了根据性别分组的各组描述统计量。根据表中的数据,2012,女生比男生获奖的次数多。
3)图10以茎叶图的形式也直观的呈现了女生获奖数量远远比男生多的现象。,4)图为稳健估计量表,给出了4种不同权重下因变量均值的稳健估计。
5)图11中给出了分组后的百分位数,分别输出男生和女生获奖数量的5%、10%、25%、75%、90%、及95%的百分位数。
4、交叉列联表分析
分析多个变量在不同取值情况下的数据分布情况,从而进一步的分析变量关系。下面就利用交叉列联表分析不同性别学生对目前所学专业的态度。在结果输出窗口中将显示如下统计数据。1)观察量处理摘要表,如图12所示,2)“性别”和“所学专业兴趣”的交叉列联表如图13所示,从图中我们可以看出,男生中对所学专业感兴趣的只有2个,(占22.2%),一般感兴趣的有4人,(占44.4%),不感兴趣的有3人,(占33.3%),理论值为3.6人感兴趣,3.0人一般感兴趣,2.4人不感兴趣,残差分别为-1.6,1.0,0.6。女生中对专业感兴趣的有4人,(占66.7%),一般感兴趣的有1人,(占16.7%),不感兴趣的也有1人,(占16.7%),理论值为2.44人感兴趣,2.0人一般感兴趣,1.6人不感兴趣,残差分别为1.6,-1.0,-0.6.可见,男生对目前所学专业的兴趣与女生有很大差别。
3)图14是交叉分组下的频数分布图,从该图中我们可以很直观的看到数据分布情况。
一、事件
近日,教育部考试中心主任戴家干透露,今年高考的全国报名人数为946万余人,比2009年1020万的考生数减少74万人。950万人,1010万人,1050万人,1020万人,956万人„„数据显示,近5年来,前3年全国高考人数一直在攀升。2006年首次突破千万大关,2008年则达到顶峰–1050万人。去年高考人数急转直下,比上一减少30万人,而今年更是减少74万人,是5年来人数减少最多的年份。
戴家干表示,高考报名人数的减少,主要原因是因为我国按毛入学率计算的适龄入学人口数量在逐年下降。
大约在去年这个时候,教育部也透露了高考报名人数,随即在全国范围内,引爆了一条消息——应届高中毕业生84万弃考。这引发了持续较长时间的讨论与关注,或云大学生就业难吓跑考生,或说中国大学教育质量不高难敌国外大学竞争。今年,我很想再看教育部公布的数据,得到弃考人数消息,以作分析(一年的情况往往并不能说明问题,需多年情况),但遗憾的是,教育部却没有公布。
戴主任把报名人数减少归因于适龄人口减少,可我怎么计算,也只能得到这只是其中一方面原因。根据教育部公布的报名数,今年的考生数比去年减少74万,而再看应届毕业生数,今年(803万)比去年(834万)减少31万,两者相差43万。这43万从何而来?
二、数据统计理论
这些数据采用了统计学中普查的方式,对象为全国参加高考的学生。
为了一定的目的而对考查对象进行的全面调查,称为普查。
普查,统计调查的组织形式之一。对统计总体的全部单位进行调查以搜集统计资料的工作。普查资料常被用来说明现象在一定时点上的全面情况。如高考人数调查就是对全国报考参加高考的学生一一进行调查统计,通常一年一次,规定某个特定时点(某年某月某日某时)作为全国统一的统计时点,以反映高考人数的自然和社会的各类特征。
普查的几个特点:
1.需要规定统一的标准时间(上例为2010年高考报名截止日)
2.通常是一次性或周期性的(上例为一年一次)
3.数据的规范化程度较高
4.普查适用的对象比较狭窄,只能调查一些最基本、最一般的现象。组织普查工作必须遵循的原则:
1.必须统一规定调查资料所属的标准时点。
2.正确确定调查期限、选择登记时间。为了提高资料的准确性,一般应选择在调查对象变动较小和登记、填报较为方便的时间,并尽可能在各普查地区同时进行,力求最短时间完成;
3.规定统一的调查项目和计量单位。同种普查,各次基本项目应力求—致,以便历次普查资料的汇总和对比;
4.普查尽可能按一定周期进行,以便于研究现象的发展趋势及其规律性。
三、事件评析
以上事件只可能有两种解释,一是弃考人数增加,二是复读生人数减少。这两个数据,在教育部的账本里都有的,教育部为何不公布,只会引起舆论更多的揣测。比如,有人就推测今年的弃考数可能远高于去年的84万,理由是,如果是复读生在全国范围内大幅减少,教育部定会公布复读生减少消息,因为,这几年来,教育部一直在治理高复班,2008年当有媒体报道高考报名考生中复读生比例高达三分之一时,教育部有关官员还曾“辟谣”说复读生只占到15%。而去年教育部公布高考报名数,却泄露天机,当年的复读生达到270万,占到1020万高考考生的26%。假使那另外减少的43万,主要来自高复班学生减少,那么,教育部是可以“骄傲”地宣布高复学生减少近两成的。现在教育部没有公布这一数据,极有可能的原因是弃考的应届毕业生进一步增加,或超过百万。而这势必会引起媒体进一步关注。质疑大学生就业难、中国大学教育质量的声音会铺天盖地。教育部由此就把数据藏起来。
当然,这些都是“揣测”。我想说的是,引起这样的揣测,是教育部门的失职,而且,教育部门的做法,也违背《信息公开条例》。全民关注的高考报名数据,既非国家机密,也非商业秘密,应该向社会公开,而且公开之后有助于分
析教育发展中存在的问题,同时以便考生选择教育、选择学校——针对弃考增多,需进一步研究弃考的原因,是就业难,还是学费贵,抑或是选择境外高校,不同的原因反映出我国教育的不同问题;针对复读减少,需分析哪种原因,是平行志愿减少高分落榜可能由此减少复读需求,还是实行新课改新高考增加复读难度不再复读,还是公办高中禁办复读班增加复读开支。这不同的原因可检验不同教育政策的实施效果。
教育的发展,离不开研究。教育部门公开教育信息,不仅是本身职责使然,也是进行科学的教育决策的要求。把高考报名数据打闷包,用“适龄入学人口数量减少”归纳报名人数下降主因,这不是科学、负责的教育发展态度。这只能掩盖教育的问题,更可能酿成教育发展的危机——需要提醒的是,假如高复学生大幅减少,适龄学生数也大幅减少,高考招生人数将大于应届毕业生报考人数的局面,在不久的将来马上出现。以今年应届毕业生803万,弃考规模与去年持平(84万)计算,应届高考毕业生报考数为719万,高复学生则为227万,应届毕业生报考数只比高考招生数657万多62万(如果弃考学生增多达到100万,这一数据则为46万)。我国高校需要立即着手应对即将到来的严重的生源危机。
从上述事件可以看出,正确运用统计学原理就能分析事物的本质,抓住问题的关键,才能做到未雨绸缪,防范于未然。
SPSS实验分析报告四
一、地区*日期*销售量
(一)、提出假设
原假设H0=“不同地区对销售量的平均值没有产生显著影响。” H2=“不同日期对销售量的平均值没有产生显著影响。” H3=“不同的地区和日期对销售量没有产生了显著的交互作用。”
(二)、两独立样本t检验结果及分析
表
(一)主旨間係數
地区 2 3 日期 2 3
數值標籤
地区一 地区二 地区三 周一至周三 周四至周五
周末
N 9 9 9 9 9 9
表
(一)表示各个控制变量的分组情况,包括三个不同的地区以及三个不同日期的数据。
表
(二)销售额多因素方差分析结果
主体间效应的检验
因變數: 销售量
來源 第 III 類平方和 修正的模型 61851851.852
a
df 8
平均值平方 7731481.481
F 8.350
顯著性.000 截距 地区 日期 地区 * 日期 錯誤 總計 844481481.481 2296296.296 2740740.741 56814814.8***.667 923000000.000 2 2 4 18 27 26
844481481.481 1148148.148 1370370.370 14203703.704 925925.926
912.040 1.240 1.480 15.340
.000.313.254.000
校正後總數 78518518.519 a.R平方 =.788(調整的 R平方 =.693)
由表
(二)可知,第一列是对观测变量总变差分解的说明;第二列是对观测变量总变差分解的结果;第三列是自由度;第四列是方差;第五列是F检验统计量的观测值;第六列是检验统计量的概率P值。可以看到:观测变量的总变差SST为78518518.519,它被分解为四个部分,分别是:由 地区(x2)不同引起的变差(2296296.296),由日期(x3)不同引起的变差(2740740.741),由地区和日期交互作用(x2*x3)引起的变差(5.681E7),由随机因素引起的变差(Error 1.667E7)。FX1、FX2、FX1*X2的概率P值分别为0.313、0.254、0.000。如果显著性水平α为0.05,由于FX1、FX2的概率P值大于显著性水平α,因此不应该拒绝原假设,可以认为不同的地区、日期下的销售量总体均值不存在显著差异,对销售量的效应同时为0,各自不同水平没有给销售量带来显著影响。同时,由于FX1*X2的概率P值小于显著性水平α,所以应该拒绝原假设,可以认为不同的地区和日期对销售量产生了显著的交互作用,在不同的地区,不同的日期会对销售额产生显著影响。
表
(三)自訂假設檢定索引 對照係數(L’ 矩陣)轉換係數(M 矩陣)對照結果(K 矩陣)對照係數(L’ 矩陣)轉換係數(M 矩陣)
地区 的偏差對照(省略種類 = 3)
恆等式矩陣 零矩陣
日期 的偏差對照(省略種類 = 3)
恆等式矩陣 對照結果(K 矩陣)零矩陣
表
(四)不同地区下销售量的均值对比检验结果(K 矩陣)
地区 偏差對照
層次 1 對平均值
對比估計 假設值
差異(評估值假設值)
標準錯誤 顯著性
95% 差異的信賴區間
a.省略的種類 = 3
下限 上限 下限 上限
a因變數 销售量-259.259
0-259.259 261.891.335-809.473 290.954 407.407 0 407.407 261.891.137-142.806 957.621
表
(四)分别显示了三个不同地区销售量总体的均值检验结果,省略了地区三的检验结果,检验值是各水平下的总体均值。可以看出:地区一的销售量均值与检验值的差为259.259,标准误差为261.891,T检验统计量的概率P值为0.335,差值的95%置信区间的下限和上限分别为-809.473,290.954。分析结论为:地区一销售量的均值与检验值之间不存在显著差异。同理,地区二销售量的均值与检验值之间不存在显著差异。三个地区产生的影响没有显著差异。
表
(五)地区对销售量影响的单因素方差分析结果
因變數: 销售量
來源 比對平方和 2296296.296
df 2 18
平均值平方 1148148.148 925925.926
F 1.240
顯著性.313 錯誤 16666666.667
表
(五)是地区对销售量影响的单因素方差分析结果。可以看到:不同地区可解释的变差为2296296.296,不可解释的变差为16666666.667,它们的方差分别为1148148.148、925925.926,F统计量的观测值为1.240,对应的概率P值为0.313。如果显著性水平α为0.05,由于概率P值大于显著性水平α,所以原假设成立,认为不同地区对销售量的平均值没有产生显著影响。
表
(六)不同日期下销售量的均值对比检验结果(K 矩陣)
日期 偏差對照
層次 1 對平均值
對比估計 假設值
差異(評估值假設值)
標準錯誤 顯著性
95% 差異的信賴區間
下限
a
因變數 销售量-370.370
0-370.370 261.891.174-920.584 179.843 407.407 0 407.407 261.891.137-142.806
上限
a.省略的種類 = 3
957.621
表
(六)分别显示了三个不同日期下销售量总体的均值检验结果,省略了日期三的检验结果,检验值是各水平下的总体均值。可以看出:日期一的销售量均值与检验值的差为370.370,标准误差为370.370,T检验统计量的概率P值为0.174,差值的95%置信区间的下限和上限分别为-920.584、179.843。分析结论为:日期一销售量的均值与检验值之间不存在显著差异。同理,日期二销售量的均值与检验值之间不存在显著差异。三个不同日期产生的影响没有显著差异。
表
(七)日期对销售量影响的单因素方差分析结果
因變數: 销售量
來源 比對 錯誤
平方和 2740740.741 16666666.667
df 2 18
平均值平方 1370370.370 925925.926
F 1.480
顯著性.254
表
(七)是日期对销售量影响的单因素方差分析结果。可以看到:不同日期可解释的变差为2740740.741,不可解释的变差为16666666.667,它们的方差分别为1370370.370、925925.926,F统计量的观测值为1.480,对应的概率P值为0.254。如果显著性水平α为0.05,由于概率P值大于显著性水平α,所以原假设成立,认为不同日期对销售量的平均值没有产生显著影响。
图
(一)地区与销售量的交互作用图
图
(一)中,从地区一至地区三,不同的日期销售额的变化波动很大且规律不一,直接结论是:不同的日期和地区间存在明显的交互作用。
图
(二)日期与销售量的交互作用图
图
(二)中,在不同的日期,不同地区的销售额的变化规律都不一样,直接结论是:不同的地区和日期间存在明显的交互作用。
二、香烟消耗量*肺癌死亡率
(一)、提出假设
原假设H0=“香烟消耗量对肺癌死亡率没有产生显著影响。”
(二)、两独立样本t检验结果及分析
图
(三)香烟消耗量与肺癌死亡率的简单散点图
由图
(三)可知,香烟消耗量与肺癌死亡率存在一定的正相关关系。
表
(八)香烟消耗量*肺癌死亡率相关关系分析
1930年人均香每百万男子中死
1930年人均香烟消耗量 皮爾森(Pearson)相關
烟消耗量
于肺癌的人数
.737
**
顯著性(雙尾)
N 每百万男子中死于肺癌的皮爾森(Pearson)相關
人数
顯著性(雙尾)
N **.相關性在 0.01 層上顯著(雙尾)。
11.737.010 11
**
.010 11 1 11 由表
(八)可知,香烟消耗量和肺癌死亡率的简单相关系数为0.737,说明两者之间存在正的强相关性,其相关系数检验的概率P值为0.010。因此,当显著性水平α为0.01时,P值小于显著性水平应拒绝相关系数检验的原假设。中相关系数上角的两个星号(**)表示显著性水平α位0.01时拒绝原假设。
三、销售额*销售价格*家庭收入
(一)、提出假设
原假设H0=“销售额对销售价格没有产生显著影响。” H2=“家庭收入对销售价格没有产生显著影响。”
(二)、两独立样本t检验结果及分析
图
(四)销售额与销售价格的简单散点图
由图
(四)可知,销售额与销售价格之间存在负相关关系。
图
(五)销售额与家庭收入的简单散点图
由图
(五)可知,销售额与家庭收入之间存在较强的正相关关系。
图
(六)销售价格和家庭收入的简单散点图
由图
(六)可知,销售价格与家庭收入之间存在弱的负相关关系。
表
(九)销售额*销售价格相关系数计算结果
销售额 皮爾森(Pearson)相關 顯著性(雙尾)
N 销售价格 皮爾森(Pearson)相關 顯著性(雙尾)
N
销售额 1 10-.933**.000 10
销售价格-.933**.000 10 1 10 **.相關性在 0.01 層上顯著(雙尾)。
由表
(九)可知,销售额和销售价格的简单相关系数为-0.933,说明两者之间存在负的强相关性,其相关系数检验的概率P值为0。因此,当显著性水平α为0.01时,应拒绝相关系数检验的原假设,认为两总体不是零相关。
另外,表
(九)中相关系数上角的两个星号(**)表示显著性水平α为0.01时拒绝原假设。
表
(十)销售价格和销售额的偏相关分析结果
控制變數
家庭收入 销售价格
相關 顯著性(雙尾)
df
销售额
相關 顯著性(雙尾)
df
销售价格 1.000.0-.728.026 7
销售额-.728.026 7 1.000.0
由表
(十)可知,在家庭收入作为控制变量的条件下,销售价格和销售额的偏相关系数为-0.728,呈较强的负相关,高于简单相关系数。
spss数据分析报告怎么写
今天乔布简历小编就和大家一起来看看spss数据分析报告怎么写。
关键词:spss数据分析报告怎么写
我们用一个例子来分析spss数据分析报告的写法——以某公司474名职工的综合状况为例进行分析。
一、数据介绍
本次分析的数据是某公司474名职工的状况统计表,其中有11个变量,分别是:职工编号、性别、出生日期、受教育水平程度、职务等级、起始工资、现工资、本单位工作经历、以前工作经历、民族类型、年龄。我们通过使用spss统计软件,对变量分别进行频数分析、描述性统计、方差分析,还有相关分析,来了解该公司职工上述方面的综合状况,并分析个别变量的分布特点和相互之间的关系。
二、数据分析
1、频数分析。我们通过频数分析可以了解变量的取值情况,对把握数据的分布特征非常重要。此次分析利用了某公司474名职工基本状况的统计数据表,在性别、受教育水平程度不同的状况下的频数分析,从而了解该公司职工的男女职工数量、受教育状况的基本分布。
首先,对该公司的男女性别分布进行频数分析,其次对原有数据中的受教育程度进行频数分析,并分别以表格的形式呈现出来。
2、描述统计分析。再通过简单的频数统计分析了解了职工在性别和受教育水平上的总体分布状况后,我们还需要对数据中的其他变量特征有更为精确的认识,这就需要通过计算基本描述统计的方法来实现。下面就对各个变量进行描述统计分析,得到它们的均值、标准差、片度峰度等数据,以进一步把我数据的集中趋势和离散趋势。
3、Exploratory data analysis。
(1)交叉分析。
在实际分析中,除了了解单个变量的分布特征,还要分析多个变量不同取值下的分布,掌握多个变量的联合分布特征,进而分析变量之间的相互影响和关系。就本数据而言,需要了解现工资与性别、年龄、受教育水平、起始工资、本单位工作经历、以前工作经历、职务等级的交叉分析。
(2)单因素方差分析。
我们把受教育水平和起始工资作为控制变量,现工资为观测变量,通过单因素方差分析方法研究受教育水平和起始工资对现工资的影响进行分析。
4、相关分析。事物之间的函数关系比较容易分析和测度,而事物之间的统计关系却不像函数关系那样直接,但确实普遍存在,并且有的关系强有的关系弱,程度各有差异。如何测度事物之间的统计关系的强弱是人们关注的问题。相关分析正是一种简单易行的测度事物之间统计关系的有效工具。
5、参数检验。对现工资的分布做正态性检验。
6、非参数检验。对本数据中的年龄做正态分布检验。
spss数据分析报告怎么写
http://cv.qiaobutang.com/knowledge/articles/56a9d1cb0cf2b3a2599171a1