大数据在高校档案信息管理中的应用研究
摘要:本文首先介绍了高校档案信息管理现状,并针对高校档案资源的信息特征进行了总结与归纳;其次,就大数据技术特点与大数据技术的应用条件进行了分析与阐述;最后,针对大数据技术在高校档案资源信息管理中的应用进行了详细介绍,并对未来高校档案信息管理的发展趋势进行了技术展望。
一、前言随着我国高校教育事业的快速发展,我国高校的教育信息化已经日益完善,高校内各个管理信息平台所产生沉积下来的大量电子文件,给高校的档案管理与信息应用带来巨大挑战。大数据以海量信息、多数据类型、价值密度低等技术特征为高校档案信息资源的数据挖掘与数据分析提供了技术保障,也为高校利用档案信息资源进行新的知识发现与趋势预测提供了强有力的技术支撑。
二、高校档案管理现状当前高校的档案管理主要面临如下问题:
(1)高校已有的档案信息管理平台已不能满足日趋庞大的档案信息资源的管理与存储,高校现有档案管理信息平台多为B/S或C/S单一服务器的系统架构方案,在不引入服务器集群或虚拟云存储技术的前提下,随着档案资源数据存储的增大,极有可能会引发磁盘物理存储容量不足,进而导致平台数据库“胀库”危险。
(2)高校内部的档案资源数据来源广泛,种类繁杂,有资料显示2012年以来,非结构化电子文件,如文档、表格、网页、音视频等数据信息占整个校园网数据信息总量85%以上。这些内容各异、格式不同的信息都将成为未来高校档案的重要数据源。
(3)当前我国高校档案管理尚存在“重馆藏轻利用”的现象,档案管理人员往往把高校档案馆藏量作为硬性指标来衡量,而对于档案信息的应用服务普遍重视不够。
三、高校档案的信息特征
(1)种类样式多、内容广泛。高校档案来源丰富,其中包括师生个人信息如职工人事档案、职工医疗保健档案、学生学籍档案,也有反映教务教学情况的,如教务档案、试题库,还有反映学校政务类别的如校务档案、财务档案、基建档案及各类资产类档案等。
(2)高校档案存储形式多样。高校档案的存储介质既有传统纸质档案如人事档案卷宗、财务原始报销凭证及公文文书,也有教务、科研、OA办公等管理信息系统生成的数据库文件;此外,除了传统的字处理文档和结构化数据库文件外,还包括大量电子表格、电子邮件、影音等半结构、非结构化电子文件。
(3)高校档案资源体量大,数据冗余度较高。随着高校网络及办公自动化水平的提升,高校的校园网内产生并沉淀大量电子文档,这些文档、报表来自学校不同部处的业务信息系统,虽然电子文件内容相对完整、独立,但不同类别电子文件之间存在大量数据冗余,占用并浪费了档案资源共享平台的存储空间。
(4)高校档案调阅频繁,档案综合利用率高。高校人员技术职称晋升、学生评优评先、财务审计分析、设备仪器招标等工作都需要提供大量数据佐证。而调阅档案则是最直接、最有效的一种信息获取手段。因此,高校档案调阅频繁,档案综合利用率较高。
(5)高校档案价值密度较大,高校档案资源大多是经由高校教学、科研、财务、人事等各个管理信息系统采集得到,这些由业务信息系统提交汇总的档案信息无论从格式上还是内容上都是相对完整规范的,其档案信息价值密度较高。
四、大数据技术的应用环境所谓大数据技术就是将海量信息资源在合理时间内进行采集与处理,并将其结果反馈给用户,帮助用户实现辅助决策。大数据具备Volume信息海量;Variety数据类型多,日志、音视频、地理位置等半结构、非结构化数据并存;Value价值、数据价值密度稀疏; Velocity 高速、时效性强、信息采集处理速度快的基本特征。档案资源共享平台上不但能够管理传统意义上的档案信息资源,更能记录数万师生在高校校园生活中衣食住行的点点滴滴,借助于大数据应用,可以在高校档案资源管理平台上真实客观地展现师生的教学、生活全貌。大数据的应用环境主要由业务、技术、数据三个维度要素构成。
高校档案资源管理平台为适应大数据应用也应按档案业务、档案信息技术以及档案资源进行如下调整和部署:
(1)档案大数据应用业务维的构建。档案业务主题的定义与描述,在进行大数据分析前,要对其业务分析的主题进行科学细致的定义和描述,只有对其待分析业务准确地定义和描述,才能对档案信息模型进行准确建模。
(2)档案大数据应用数据维的构建。档案数据模型的转换,以往高校档案资源共享平台下的信息大多借助于数据库系统进行存储与管理,档案数据库系统主要是为档案业务信息管理而创建,并不适用于数据分析。因此在档案大数据应用时,首先要将档案资源共享平台下的档案信息进行数据模型的转换,即将二维关系特征的业务型档案信息转换为具有多维度、多度量的档案数据模型。
(3)档案大数据应用技术维的构建。首先在大数据软件上要考虑档案数据挖掘算法的加载,在处理完档案数据模型转换工作后,则可筛选适用于档案系统特征和业务需求的数据挖掘算法;此外,在大数据应用的硬件上,要考虑其运行环境应具备足够的计算与存储性能,高校部署并开展大数据应用,必须具备强大的计算机运算处理能力,院校通过夜间开启大数据应用,可有效缓解校园网昼间服务器的计算负荷;此外,档案信息的大数据存储可通过部署云存储或配置大容量磁盘阵列等方式予以解决。
五、大数据在高校档案管理中的应用
(1)大数据技术可用于高校档案信息的资源发掘。在校园大数据时代,信息应用服务及师生用户的客观需求引领着高校档案由常规分析向广度、深度分析转变。人工智能、机器学习、知识图谱等一系列大数据技术能够从海量档案信息资源当中分析潜在价值并找出学校特有办学规律。未来,利用海量档案信息资源进行数据挖掘与数据分析将成为高校档案信息服务的主营业务。
(2)大数据技术有利于高校档案用户信息的数据挖掘。当高校全面进入智慧校园时代,校园师生用户将会对高校档案资源的信息服务、应用服务、智慧服务的要求变得更为迫切。高校档案资源共享平台借助大数据技术可对来访用户身份、来访记录等结构化信息及其存储行为、搜索方式、位置信息等半结构化信息进行分析与处理,从中挖掘并找到用户的隐形诉求从而提升档案信息的应用服务水平。
(3)大数据技术可用于高校档案知识发现与趋势预测。高校档案资源共享平台中的档案资源与用户信息相对孤立,如学校一卡通系统用户行为信息、教务考试成绩信息、学生系统的学管信息等即便能够被高校档案资源共享平台收录、采集,但都是独立存储,学校无法从利用这些档案资源中进行知识发现和趋势判断,借助大数据技术则可找出这些档案信息间、用户间以及档案与用户间的潜在逻辑关联规则,从而能够为学校教学、学生综合素质评价、财务分析等各领域提供趋势判断和辅助决策。
六、结束语
随着高校数字校园、智慧校园建设的逐渐深入,未来将会有更多的信息技术融合到高校档案信息管理中。如云计算与云存储服务,将会解决高校海量档案信息资源存储不足问题,同时借助于云架构模式,能够实现校际档案信息平台互联互通及档案资源共享;4G移动通信与智能终端的普及,将拓展丰富校园用户访问档案资源的媒介渠道;而大数据技术更会引领高校档案界从“狭义档案资源观”向“大档案观”里程碑式地发生转变。
本文摘自:中国教育信息化网 作者:陈锋