作者:admin 时间:2022-07-27
编者荐语:
软件可靠性越来越受到企业和工程领域朋友的关注。让我们通过王老师的文章,一起系统地对软件可靠性做一个了解。
以下文章来源于永恒之地 ,作者徐步陌上行
在《可靠性工程师手册》一书中,软件可靠性的内容讲得很少,对于没有基础的人可能不好理解,结合一些案例讲解下,计划一共5篇文章。
本文目录:
一、软件的基本概念
二、软件的质量特性
三、软件可靠性定义
四、软件失效的原因
五、软件缺陷的形成
六、软件可靠性与硬件可靠性的区别
一、软件的基本概念
软件(software):指一系列按照特定顺序组织的计算机数据和指令的集合。
软件工程:指软件开发、运行、维护和引退的系统方法。
软件工程一直以来都缺乏一个统一的定义,很多学者、组织机构都分别给出了自己的定义。
一种比较好理解的定义认为:软件工程是研究和应用如何以系统性的、规范化的、可定量的过程化方法去开发和维护软件,以及如何把经过时间考验而证明正确的管理技术和当前能够得到的最好的技术方法结合起来。
软件工程化:用系统工程方法处理软件生存期的全部过程。本质是软件过程工程化,将软件的生存期过程分阶段的划分规范化,使其有较好的可视性,以便管理和控制,并能不断改进。
系统工程是为了最好地实现系统的目的,对系统的组成要素、组织结构、信息流、控制机构等进行分析研究的科学方法。
实现软件工程化之前,开发模式基本是作坊式开发。自编、自导、自演,整个过程别人不了解也无法介入,缺乏技术标准或规范,很少形成文档。比如我经常写一些软件就是这样。
而软件工程化,设计、编程和测试分开,遵循有关标准和规范进行,整个过程透明、可控。
二、软件的质量特性
书上并没有这部分内容,但我们要做好软件,还是得了解软件的质量特性。
ISO/IEC 25010:2011标准中,表述的软件质量特性模型如下,一共包含了8个特性,分别是功能适应性、性能效率、兼容性、易用性、可靠性、性、维护性、可移植性。每个特性下,又有一些子特性,一共31个子特性。
篇幅原因,每个子特性的具体定义我这里不罗列。我举一些例子,来理解下大的层面:
功能适用性:软件能够正确、完整地实现用户的需求,提供了相应的功能。
性能效率:在指定条件下,软件对操作所表现出的时间特性(如响应速度)以及实现某种功能有效利用计算机资源(包括内存大小、CPU占用时间等)的程度。包括软件执行的快慢,比如Excel,数据量一大就很慢。对资源需求多少,吃多少内存等等。容量,指最大限的满足要求的程度,比如说12306网站在一秒内处理的最大请求。
兼容性:涉及共存和互操作性,共存要求软件能给与系统平台、子系统、第三方软件等兼容,同时针对化和本地化进行了合适的处理。互操作性要求系统功能之间的有效对接,涉及API和文件格式等。
两个及两个以上软件进行信息交换,这个叫互操作性,比如我们使用的研发系统和测试系统,它们之间的信息交换。共存性,软件不能对其他产品有害,比如3Q大战时,人为的制造不共存,有你没我,有我没你。
易用性:对于一个软件,用户学习、操作、准备输入和理解输出所作努力的程度。主要包括易用好理解,能识别、易学习、好操作、对用户错误进行保护、美观、可访问(例如说你有没有考虑残疾人怎么使用这个软件)。说到易用,我就经常吐槽Creo软件的界面实在是难看至,相比之下,UG就好看很多。
可靠性:不出故障地完成任务,有的容错能力,出故障时易于恢复。本文第三章节会讲到它的定义,这里先不讲。
性:要求其数据传输和存储等方面能确保其,包括对用户身份的认证、对数据进行加密和完整性校验,所有关键性的操作都有记录(log),能够审查不同用户角色所做的操作。
软件包括如下:保密,数据只能由授权人员访问;完整,防止未经授权就被修改或访问;不可抵赖,指能够证明已经发生过的事情,日后不可抵赖;可审查,另一翻译为责任,指的是谁的操作,能够追溯到,比如说网上发帖,能够通过IP追踪到背后的人;真实性,比如你说你是个普通应用软件,通过备案等等确实说明了你不是病毒。
这里我特意提一下,这个定义里的,指的是软件本身的。由于软件出bug,导致的整机产品出问题,是整机方面的,要区别一下。
维护性:当一个软件投入运行应用后,需求发生变化、环境改变或软件发生错误时,进行相应修改所做努力的程度。
简单来说就是好维护,比如有模块;可以复用,多个系统可以用;好分析、定位问题,问题找到了好更换。我举个最简单的例子,跟圆周率相关的代码,我们常见的做法是前面先定义圆周率:
#define PI 3.14
后面的计算使用,就直接用PI,当想改变PI值时,只需要修改这里即可,而不是直接写3.14,导致要修改时后面都得改一遍。这就是一个简单的体现维护性的例子。
可移植性:把程序从一种硬件配置和(或)软件系统环境转移到另一种配置和环境时,需要的工作量多少。有一种定量度量的方法是:用原来程序设计和调试的成本除移植时需用的费用。比如说游戏《仙剑奇侠传》,一开始只在电脑上,后来被移植到了手机上。
三、软件可靠性定义
软件可靠性是指软件在规定条件下和规定时间内,不引起系统失效的能力。
书上并没有做出多少解释,这里我细化一些表述。
规定条件,包含的主要是使用者和使用方式。使用者包含了人、软硬件环境。使用方式指使用的任务和功能,以及使用的频度,我在括号里写了软件操作剖面。你可以理解为不同角色使用不同功能的频率,在后面的软件可靠性测试文章中,我会举一个例子,使得大家明白软件操作剖面是个什么意思,这篇文章不讲。
时间一般有三种,分别是执行时间、日历时间和时钟时间。都什么意思?
执行时间:运行软件时,计算机系统实际用于执行程序指令的时间。
日历时间:以年月日计算的编年时间,软件可能处于工作状态,也可能不在工作状态。
时钟时间:从程序执行开始到程序执行结束完毕所经过的时钟时间,包括等待时间,其它程序执行的时间,但计算机的停机时间不算在内。
接下来,我们理解几个概念:
软件可靠性中常用失误、缺陷、故障和失效来描述故障的因果关系。那我们首先得搞懂这几个概念。
失误(mistake):指可能产生非期望结果的个人行为。一些典型失误:误解或遗漏了用户的需求;软件设计错误,没有完整的实现软件需求;程序设计错误。
缺陷(defect):指代码中引起一个或者一个以上故障或失效的错误编码,软件缺陷是程序所固有的 。一些典型缺陷:数组越界使用;缓冲区溢出;算法实现不正确。
讲得缓冲区溢出,多说几句。缓冲区溢出是一种非常普遍、非常危险的漏洞,在各种操作系统、应用软件中广泛存在。利用缓冲区溢出攻击,可以导致程序运行失败、系统宕机、重新启动等后果。更为严重的是,可以利用它执行非授权指令,甚至可以取得系统特权,进而进行各种非法操作。
故障(fault):指在软件运行过程中,缺陷在条件下导致软件出现错误状态,这种错误的状态如果未被屏蔽,则会发生软件失效。一些典型故障:资源泄露;递归调用(死循环);操作者意外输入未知命令;在以前没有考虑的条件下采取的意外路径等。
失效(failure):指程序操作背离了程序的要求。
软件故障的因果关系如下:
四、软件失效的原因
软件失效,是因为在运行过程中遇到了故障,这些故障的产生有内在和外在原因,可以用下面这个图帮助理清。
我在上图已经举了一些例子。这里再讲下一些案例:
例如偶然失误,在一些需要计时的软件中,如果我们选用了错误的计时,则随着时间往后,累积误差会越来越大。
比如我以前想做个水压监测软件,需要用到计时,我们对比几个计时:
Timer控件,控件不能做计时,只能用于粗略计时,而且最小周期不能小于80MS。
GetTickCount()计时,返回从操作系统启动所经过的毫秒数,返回的是DWORD类型,返回的值代表程序从启动到如今走过的时间。只到55ms。DWORD类型的最大值为4294967295,折算成天是49.7。也就是说当服务程序连续跑了50天之后,再调用GetTickCount()的时候就会发生溢出。
imeGetTime:函数以毫秒计的系统时间。该时间为从系统开启算起所经过的时间。
QueryPerformanceCounter,Windows 内部有一个精度非常高的定时器, 精度在微秒级。
RDTSC(Read Time Stamp Counter),直接利用Pentium CPU内部时间戳进行计时的高精度计时手段。由于目前的CPU主频都非常高,因此这个部件可以达到纳秒级的计时精度。(使用起来比较麻烦,且结果返回差值较大)
黑客攻击案例:CSDN密码外泄门
这个案例我记得特别清,亲身经历过。2011年12月,CSDN的系统遭到黑客攻击,600万用户的登录名、密码及邮箱遭到泄漏。随后,CSDN“密码外泄门”持续发酵,天涯、世纪佳缘等网站相继被曝用户数据遭泄密。天涯网于12月25日发布致歉信,称天涯4000万用户隐私遭到黑客泄露。
环境异常导致的失效:医院X射线影响内存丢失
作者为医院急救设计了一个相关程序,在实验室运行良好,但是每次在医院调试都出bug,作者只好到医院去调试,而且是当着急救病人!!!经过漫长的测试终于发现,是由于医院使用的X射线导致电脑内存总是丢失几个 bit 的信息,而导致程序出问题,最终通过把电脑的内存用铅板隔起来解决!
五、软件缺陷的形成
软件缺陷的形成与软件开发过程各个阶段活动都相关,可以简述如下。
我举一些实际的例子帮助大家理解:
用户需求环节出错:某出口机器,程序写以50Hz去设计,实际当地使用为60Hz。规格书未明确60Hz要求。
软件需求分析环节出错:某需求描述,统计每次出水时间,当累计出水达到10分钟后,停止出水。此时常温水、冷水灯保持熄灭状态,同时此三个按键无响应,其他触摸按键可操作。需求不明确,程序员不好理解,理解错误。
软件设计环节出错:某设备按键开机10s后4s无反应,原因是软件增加开机动画
4s内不允许操作按键,但是计数器放到了开机10s后开始计数。
编码环节出错:某机器每周星期循环运行时,星期一不显示,无法正常自动运行。原因:使用数组时,下标越界,定义了数组tab[7],但实际用到了tab[7];
软件测试环节出错:某机器电源键关闭电源后制冷功能无法关闭,测试时只关注了电源键关闭,显示已关闭,未关注负载输出未关闭的问题。
关于软件测试环节出错,我认为很大一个原因在测试用例的设计上存在不足。后面我单独讲讲测试用例的设计。
开发高可靠的软件,那就是要在这些环节中都控制好。
六、软件可靠性与硬件可靠性的区别
软件具有如下特点:
(1)无形性。产品没有的形状,其制作过程的可视性差。
(2)一致性。产品一旦成型后,无论复制多少份,均一致,无散差。
(3)不变性。软件产品形成后,无论存放和使用多久,只要未经人为改动,就不会变化,不存在老化和损耗问题。
(4)易改进性。软件产品通常比硬件产品容易改进。
(5)复杂性。软件的运行路径通常很多,特别是大型软件,逻辑组合变化复杂,功能也相对复杂。
以上是本期分享内容,后续再讲:软件可靠性设计、软件可靠性测试、常见测试用例的设计方法、软件出问题的一些思考等内容。
以上文章来源于永恒之地 ,作者徐步陌上行
国可RFMEA
与传统的FMEA分析方法和软件相比,R-FMEA最大的特点是通过其七步的分析流程, 构建了关联紧密的FMEA基础数据关系,即FMEA主模型。通过FMEA主模型,工程人员可以根据需要构建简单的或者复杂的FMEA分析, 并实现企业知识的积累和快速重用。
国可R-FMEA软件支持免费在线使用,并保证数据。日前,R-FMEA V4.6已正式发布,欢迎感兴趣的朋友在线申请
版权所有© 国可工软科技有限公司 沪ICP备2020030271号