当前位置: > 论文中心 > 教育论文 >

R 与SAS 的集成在统计学教学中的应用研究

时间:2013-09-10 13:45 点击:
当前能用来进行统计分析的软件越来越多,而其中应用最广泛的两种就是R与SAS。本文从使用者的角度出发,结合大学中这两种软件的使用情况,分别从学生、老师和学校三个方面对这两种软件使用问题的反馈进行了分析,并提出了解决这些问题的对策——集成。根据SAS
  0引言
 
  随着电子计算机技术的发展,统计分析理论与实践已离不开计算机,使统计分析在精度和效率上得到了惊人的提高。因此专门用来进行数据统计分析分析的统计分析软件也越来越多,比如SAS,R,SPSS,EXCEL等,而SAS与R是其中最为主流的两种。大学校园里普遍使用的统计分析软件便是SAS与R,这两种软件给学生、老师和学校带来极大方便的同时,也暴露了各自的不足。针对于SAS软件,学校认为,购买正版SAS软件的价格太高了,给学校经费造成巨大压力,再者软件更新很快,意味着这种巨大的经费投入是长期的。因此,很多学校迫于经费的压力,根本没有使用正版软件,而是使用所谓破解版等盗版软件。同时学生和老师认为,因为盗版软件会缺失正版软件中一些重要的应用模块,这就会影响学生以及老师们的学习和研究,同时盗版软件大多数含有病毒,这也将给学校硬件和软件设备均带来很大的威胁,导致学校中的设备总是会出现不能正常使用的情况,这也间接地影响着老师和学生的研究学习。针对R软件,它并非专门的统计分析软件,因此在运用于统计分析时,并没有SAS那么详细的结果,以及准确的验证工具。面对学生、老师和学校反馈的这些问题的影响愈来愈深,不得不让我们去思考这些问题产生的原因及采取的对策。本文从使用者的角度出发,结合大学中这两种软件的使用情况,分别从学生、老师和学校三个方面对这两种软件使用问题的一些反馈进行了分析,并提出了解决这些问题的对策——集成。根据SAS与R两者各自的优缺点,对两者软件进行集成,便可很大程度解决这两种统计分析软件使用中的问题。本文列举了4种可行的集成方案,并说明了优缺点,为以后的统计分析软件的集成研究提供了一些理论依据。
 
  1软件特点分析
 
  SAS与R都是应用很广泛的统计分析软件,因此这两种软件的种种弊端很早就已经暴露出来了,但是为什么仍迟迟得不到解决呢?因为它们的那些问题均是源自软件本身的特点,只要软件本身不改变,那些问题也就无法消除。本文从学生、教师、学校等三个方面对这两种统计分析软件使用问题的反馈出发对这两种统计分析软件的特点进行研究与分析。
 
  1.1SAS软件的特点
 
  (1)需要购买正版软件,成本高。SAS是非开源软件,是商业软件,所以是需要付费的,并且价格十分昂贵。同时作为一种软件,它的更新速度是很快的,因此版本换的很快,每一次版本的更换又需要支付费用,这就造成使用正版SAS的成本是很高的。
 
  (2)灵活方便、功能齐全。SAS的宗旨是为所有需要进行数据处理、数据分析的非计算机人员提供一种易学易用,完整可靠的软件系统。①操用方便:用户把要解决的问题用SAS语言表达出来,组成SAS程序,提交SAS系统即可。执行的情况和输出结果都在屏幕上显示出来。②灵活:SAS系统提供很多语句及选项供用户灵活地使用某种统计方法。③功能齐全:SAS系统提供的二十多个模块可供用户根据实际需要灵活地选择使用。
 
  (3)编程能力强、简洁易学。SAS语言是SAS系统的基础,是用户与系统对话的工具。该语言的特点是用户不必告诉SAS“怎样做”,只需告诉它你要“做什么”就行了。
 
  (4)处理与分析任意组合。SAS程序的结构由两个基本步骤任意组合而成。DATA步用于对数据的加工处理;PROC步用于分析数据和编写报告。
 
  (5)适用性强、应用面广。SAS系统适用于初学者或有经验的用户;能满足从事行政、管理、分析、编辑等部门人员对信息需求的用户。SAS系统可用来解决自然科学和社会科学各个领域的各种问题。
 
  1.2R软件的特点
 
  (1)R是自由软件。也就是说,它不会向你收取任何费用,但是它的能力不会比任何同类型投入成千上万美元价值不菲的商业软件差。从功能相似的角度来说,R和MATLAB最像的。
 
  (2)R是一个全面的统计研究平台,提供了各式各样的数据分析技术。几乎任何类型的数据分析工作皆可在R中完成。并且通过R你可以和全球一流的统计计算方面的专家合作讨论,它是全世界统计学家思维的最大集中。当你加入了R的邮件列表,每天都会收到五六十份关于R的资讯邮件。
 
  (3)R是一个可进行交互数据分析和探索的强大平台。因为R是可进行交互数据的强大平台,因此在R软件中任意的一个分析步骤的结果均可以被轻松保存、操作,并作为进一步分析的输入,这使得R语言的操作性极强。
 
  (4)R和其他编程语言/数据库之间有很好的接口。R可以轻松地从各种类型的数据源导入数据,包括本文文件、数据库管理系统、统计软件,乃至专门的数据仓库。它同时可以输出并写入到这些系统中。代码整合的时候感觉R为你提供了一系列对象,你用其他语言只要调用这些对象就可以了。这对数据整合工作非常有用。
 
  (5)R拥有顶尖水准的制图功能。无论多么复杂的数据,R都可以将它们可视化,R拥有最全面且最强大的可视化这一系列可用功能。
 
  (6)R可运行与多种平台上,包括Windows、Unix、Linux等。因为自由开源软件具有零成本或低廉的成本的特点,十分有利于优质资源的开发与共享,因此自由开源软件在各个领域的应用已成为主流趋势。因此在操作系统上也将会是百花齐放,像Linux这种开源操作系统普及率将会越来越高,这时候具备多平台运行能力的R将具备极大的优势。
 
  1.3为什么R与SAS要集成
 
  很多人在比较R、SAS、SPSS等统计软件时,总是偏向某一种软件而对其他软件一味地指责。笔者认为,竞争可以带来技术的创新与进步,但是任何一款软件都不可能集所有优点于一身,能够包治百病,满足所有用户各种各样的需求,所以软件之间的合作对使用者而言更有意义,也是势在必行。
 
  对于R与SAS这两种统计分析软件来说,它们有各自的优势,也有各自的问题,竞争促进创新,合作才能带来双赢,因此两者的集成能融合各自的优势解决各自的问题,从而更能满足使用者的各种需求。
 
  1.4可行的R与SAS集成方案及其优缺点
 
  (1)通过SAS/IML在SAS里面提交R代码。SAS/IML9.22推出了一个新功能:用户可以在IML里面执行R代码,R和SAS的数据也可以相互交换。该种集成方案的优点有:①因为R代码本质上是在R里运行,所以全面支持R的各种模型和函数;②这种集成方案支持32位或64位的Windows、Linux操作系统;③这种集成方案在数据交换、错误捕获等方面表现不错,并且支持SASFormat。同时该种集成方案的缺点有:需要购买SAS/IML(9.22版本或更高版本),成本高。
 
  (2)通过SASModelManager将R模型导出生成的PMML文件翻译成SAS代码。PredictiveModelMarkupLanguage(PMML)是由数据挖掘小组(DataMiningGroup,DMG)牵头,众软件厂商共同研究制定的一套用于表示模型的标记语言,目的是为了在不同软件产品之间实现模型的共享。这种集成方案的优点有:①可以将生成的SAS代码快速集成到各种基于SAS开发的应用系统中;②可以将R模型和SAS模型进行预测性能方面的比较;③可以对R模型和SAS模型进行性能监测。同时这种集成方案的缺点有:①需要购买SASModelManager(12.1版本),成本高;②SASModelManager目前也仅支持几种常用的PMML模型。
 
  (3)通过宏Proc_R实现在SAS里面提交R代码。PROC_R于2012年发表在JournalofStatisticalSoftware上,是一位华人WeiXin在美国罗氏制药公司工作期间发表的,是使用了管道技术以批处理的方式执行R代码。这种集成方案的优点有:①因为R代码本质上是在R里运行,所以全面支持R的各种模型和函数;②不需要购买SAS/IML,成本低。这种集成方案的缺点有:①只支持Windows系统,但是使用者如果有一定编程功底,可以将源代码改造成Linux可用的版本;②数据交换通过csv文件实现,可能不支持SASFORMAT;③这种集成方案在错误捕获等方面略弱。
 
  (4)将R生成的神经网络和决策树模型翻译成SAS代码。用R建神经网络模型,然后将模型翻译成SAS语言格式的评分代码,并在SAS里对新数据进行预测。这种集成方案的优点有:①可以将生成的SAS代码快速集成到各种基于SAS开发的应用系统中;②这种集成方案在Windows和Linux操作系统上都是可行的;③不需要购买SAS/IML或者SAS/EM,成本低。这种集成方案的缺点有:①这种集成方案目前只支持神经网络和决策树模型,应用范围相对较窄;②这种集成方案是无法处理自变量取值缺失的情况。
 
  2结论
 
  本文从学生、老师和学校三个方面对SAS与R两种统计分析软件的问题以及特点进行了分析,并提出了有效解决两种软件各自问题的对策——集成。软件各自出现的问题来自各自软件的特点,集成综合两种统计分析软件的优点,可解决两种软件各自在使用中出现的问题,研究结果给以后统计分析软件的集成研究提供了理论参考依据。针对学生,老师以及学校需求的多样性特点,列举出了4种可行的集成方案,各高校可根据学校的实际情况,选择合适的集成方案以达到学校的实际需求。
 
  参考文献
 
  [1]冯雪楠,崔玉杰.实用统计软件比较分析[J].北京工业大学学报,2008.20(1):62-65.
 
  [2]尹永学.自由开源软件在高等教学中的应用[J].高教视窗,2009:156-157.
 
  [3]郭貌,李克.联合SAS和R分析医学数据举例[J].2012.29(2):288-290.
 
  [4]薛毅,陈立萍.统计建模与R软件[M].北京:清华大学出版社,2007.

   论文榜(www.zglwb.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导代理,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。


栏目列表
联系方式
推荐内容
 
QQ在线咨询
投稿辅导热线:
189-6119-6312
微信号咨询:
18961196312