咨询热线

400-611-8065

Classification

档案资讯

400 611 8065
传真:传真号码
手机:400 611 8065
邮箱:电子邮件0
地址:贵州省贵阳市花溪区清溪路88号
当前位置: 首页 > 档案资讯

基于数字档案的人工智能辅助档案开放审核系统实现研究

发布时间:2023-02-23 丨 浏览次数:0

福建省档案局、档案馆项目组

习近平总书记对档案工作作出的重要批示为推动档案事业高质量创新发展提供了根本遵循。新修订《中华人民共和国档案法》第二十七条规定“县级以上各级档案馆的档案,应当自形成之日起满二十五年向社会开放”。《国家档案馆档案开放办法》进一步明确“自形成之日起满二十五年的国家档案馆的档案,经开放审核后无需限制利用的应当及时向社会开放”。《“十四五”全国档案事业发展规划》对加快推进档案开放工作提出具体要求,并要求“加强大数据、人工智能等新一代信息技术在数字档案馆(室)建设中的应用”。近年来,福建省档案馆总结档案开放审核工作经验,梳理分析馆藏档案开放审核工作现状,充分利用馆藏档案数字化成果,结合人工智能技术,开发了“基于数字档案的人工智能辅助档案开放审核系统”,通过系统辅助进行档案开放审核,已完成了100万件档案的开放审核任务,预计在“十四五”末将全部完成馆藏自形成之日起满二十五年档案开放审核工作。

1 现状与探索

当前,我国各级国家综合档案馆馆藏档案数量急速增长。随着档案信息化建设的推进,存量纸质档案数字化率逐年提升,增量电子档案接收逐渐常态化,海量档案数据的开放审核成为制约档案共享利用的瓶颈。以福建省档案馆为例,预计至“十四五”末,馆藏自形成之日起满二十五年的档案将达320万件。如何在时间短、人手少、任务重的情况下保质保量完成开放审核工作任务,是提升档案工作对外开放服务水平的难点。

为探索一条走出档案开放审核困境的新路子,项目组深入研究档案开放审核工作发展历程、现状和急需解决的现实问题,寻找解决思路和办法。福建省档案馆2020年之前档案开放审核工作大致分为两个发展阶段:传统开放审核阶段和信息系统辅助开放审核阶段。

1.1 第一阶段:传统开放审核阶段

传统开放审核工作(其前身为解密划控、开放鉴定)的对象主要是实体档案和各类目录,经“三审”(即初审、复审、终审)形成档案开放审核成果,报同级档案主管部门审批后,再以一定的形式向社会公布。

主要工作流程有:根据工作计划,档案开放审核人员通过内部调卷调出档案实体,对照案卷目录和文件目录,逐卷逐件逐页审核,形成初审意见,提交开放审核管理人员复审;复审人员再次对照档案实体和目录对初审意见进行审核,出具复审意见,报鉴定工作委员会委员终审;各终审委员会委员同样要先调取档案实体,再逐卷逐件逐页核对初审、复审意见,提出终审意见,报馆档案鉴定工作委员会会议研究确定;最终依据审核结果形成档案开放控制意见,经鉴定工作委员会主任(一般由馆主要领导兼任)签批后报同级档案主管部门审批。

可见,传统的档案开放审核工作不仅耗时长、台账多、安全隐患多,且工作人员对开放审核标准的理解和判断可能存在偏差,容易引起争议。但这一阶段的档案开放审核工作扎实有力,形成了开放审核一般工作规则和流程,积累了一定数量的敏感词、语句、控制规则和案例样本,为人工智能辅助开放审核系统的研发打下了坚实基础。

1.2 第二阶段:信息系统辅助开放审核阶段

随着信息技术在档案部门的应用和发展,福建省档案馆档案开放审核工作由“纯手动模式”转入“半自动模式”。2012年,基于馆藏档案文件级目录和少量数字化副本,开发了档案鉴定信息系统;2016年,对系统进行改造升级,引入敏感词辅助开展档案开放审核工作,在开放审核的质量和效率方面取得一定突破。

该阶段,系统首先通过关键词或敏感词在目录系统中标引并高亮显示,对每件档案开放或控制进行提示,辅助人工审核,提升开放审核工作效率。其次,系统在开放审核各环节清晰留痕,并可根据需要生成相应报表,取代原有的手工台账,工作人员不需要再进行繁琐的标记,可以专注于开放审核业务工作。再次,通过系统形成了以档案鉴定工作委员会统筹、档案开放审核工作组主要落实的工作机制,相较于之前的举全馆之力大规模开展档案开放审核工作的“大兵团作战”模式,档案开放审核的工作流程更加规范、科学、合理,工作质量和效率有了明显提升。

虽然这一阶段的档案开放审核工作取得了较大进步,但仍存在以下问题:一是工作对象仍以档案实体为主。档案鉴定信息系统未将档案数字化成果充分应用到开放审核工作中,仅用系统替代原来的纸质目录功能,用敏感词在电子目录上标注提醒,仍需工作人员调阅档案实体,通过审阅原文进行开放审核,影响工作效率,存在档案实体安全隐患。二是档案鉴定信息系统辅助提醒功能较为呆板。虽然通过建立关键词库并对敏感词进行高亮标注,为开放审核提供了提醒功能,提高了工作效率,但由于敏感词不完善,且存在断章取义等情况,常常出现误判。三是未实现全流程管理。鉴定信息系统为单机版,开放审核经初审、复审后,成果需人工从系统中导出,刻录光盘后与审核台账一并提交终审,终审意见也同样只能以线下的模式呈送下一环节,无法实现开放审核全流程线上运转。

2 实践与成果

项目组总结了前两个阶段档案开放审核工作经验,针对急需解决的问题,提出充分利用近年来福建省档案馆馆藏档案数字化成果(数字化率近100%),运用人工智能技术进一步提升档案开放审核系统辅助功能,进而大幅度提高工作质量和效率,解决档案工作中这一卡脖子难题的工作思路。经过调研和反复实践,项目组实现了“四个一”的建设目标,即研究梳理“一”个规范的系统流程、研究制定“一”个开放审核档案关键词表、研究训练“一”个人工智能审核算法模型、研究开发“一”套基于数字档案的人工智能档案开放审核系统。

2.1 研究梳理“一”个规范的系统流程

项目组在总结了前两个阶段档案开放审核工作经验的基础上,研究梳理了规范的档案开放审核系统流程,覆盖馆内档案开放审核工作全流程,预留档案形成单位或者移交单位接口,可实现档案开放审核“会同机制”下的各形成单位或移交单位线上审核。目前,人工智能辅助档案开放审核系统流程如下(见42页左上图)。

步骤一:将待审核的档案导入系统中的“待开放审核档案库”,经“智能分库/敏感词标注”后系统自动划分为“拟涉密库”“拟非密控制库”“待定库”“拟开放库”四个库,并对档案目录和原文进行敏感词自动高亮标注。

步骤二:管理人员采用自动或手动方式进行审核任务分配,支持按卷或按件分配各初审员,同时支持分配任务转移功能,灵活掌握批次任务动态。

步骤三:初审员根据系统主动推送数字档案开放和控制程度的匹配度推荐值,对所接受分配的档案进行初审,同时也可通过敏感词高亮提醒对档案目录和原文进行审核。根据初审结果,形成“涉密档案库”“非密控制档案库”“一般开放库”“公布开放库”,并发送复审员。

步骤四:复审员复审。其中“涉密档案库”和“非密控制档案库”可采用抽查的方式进行复审,也可100%全查;“一般开放库”和“公布开放库”则默认逐件全部复审,复审结束后即可将结果提交档案鉴定工作委员会委员进行终审。

步骤五:档案鉴定工作委员会委员根据复审意见,直接在系统中进行终审,并形成最终审核意见。

步骤六:全流程台账留痕报表直接生成,可直接提交档案鉴定工作委员会会议议定。

2.2 研究制定“一”个开放审核档案关键词表

项目组按照国家和福建省有关文件规定,对馆藏不同全宗档案进行深入调查摸底,收集整理了近600个敏感词,联动省公安厅网安部门吸收了部分当前网络敏感关键字词,设计制定了开放审核档案关键词表,建立了档案开放审核动态管理敏感词库。系统在初审、复审环节中自动感应敏感词库,在目录和原文中进行高亮标注,并在原文右侧按降序显示敏感词词表和词频,可通过点击词频自动跳转定位至敏感词处,辅助提醒各环节审核人员开展工作,为开放审核工作提供定量参考依据,极大提高了开放审核的效率。另外敏感词库采用动态开放式管理,可根据不同全宗、不同类型档案的实际情况或者档案馆的需求进行增删改,同时还可形成关键词频率大数据,进而推动人工智能发展。

2.3 研究训练“一”个人工智能审核算法模型

通过OCR识别和NLP数据化处理,课题组构建了能够满足当前福建省档案馆开放审核要求的模型,开放审核模型训练、测试和迭代更新算法工作流程图如下(见42页右下图)。

一是将已开放审核的档案数字化成果导入系统,通过底色处理、去除印章等图像处理后进行OCR识别,并对识别的文字版面进行分析,结合NLP(自然语言处理),按照行、段落的格式类型进行数据化处理。

二是对数据化处理的识别准确率较高的数据进行模型训练,将其中的大部分数据输入模型中进行训练,并对训练好的模型通过剩余的数据进行预测准确率测试,预测准确率达到预期值以上时即认为模型训练成功,否则需要调整模型算法直至达到预期值。

三是运用训练成功的模型,对需开放审核的数字档案进行预测,如发现预测有误差要定期对模型进行迭代学习,以达到开放审核模型的迭代更新需求。

经过多轮数据训练测试,最终形成适用于档案文本领域的审核开放、控制类分类模型。该模型基于文本自动校正预处理、文本数据挖掘技术TF-IDF算法、贝叶斯分类算法模型进行分类,在OCR识别准确率能基本保证的情况下,控制类预测准确率接近100%,开放类预测准确率接近60%,整体预测准确率约80%,经过迭代学习后预测准确率可达90%,算法模型速度快、部署容易、效率高。同时系统还将采用基于神经网络的ERNIE模型作为分类器的预训练模型进行优化,进一步提高预测准确率。

2.4 研制开发“一”套可基于数字档案的人工智能档案开放审核系统

结合原有档案开放审核工作系统和工作流程,运用人工智能审核算法模型,经过反复实践调优,开发出一套全流程智能化审核系统,成为档案开放审核工作提质增效的可靠帮手。

基于数字档案的人工智能开放审核系统于2021年12月全面投入福建省档案馆档案开放审核工作,系统吸收了各阶段档案开放审核工作经验,实现了档案开放审核全流程在线处理、智能统计分析关键词大数据、按用户需求生成各类报表台账、智慧化人机交互、适应各平台数据对接转化,解决了原来档案开放审核工作需要调阅档案实体与各类目录、过程留痕管理缺失等问题,将开放审核从“半自动模式”升级为“全智能模式”。系统的主要功能优势如下。

一是实现开放审核工作全流程在线管理。档案开放审核工作建立在已数字化档案的基础上,配合使用智能系统,可以直接在系统中查看档案目录及原文、选定开放或控制选项、标记控制的原因等。对照传统开放审核,在流程上省去了调、归档案实体卷和手工登记台账的步骤,避免了对档案实体的二次损伤和手工登记过程中可能出现的失误。

二是实现开放审核工作任务可定制可追踪。智能系统可以按照实际需求,将一个全宗、一个批次任务智能分配成多个子任务、分配至各个审核员的账号中,可以让更多人参与其中,使工作更具灵活性。

三是实现开放审核工作人员管控和台账留痕管理。系统中设置有初审员、复审员、终审员三个环节,让每一批次数据都经过层层审核。特别是在已控制档案的审核过程中,下一级审核员可以看到上一级审核员对档案划控的依据所做的标记,不用逐页审核,可提高效率,保证最终的准确性和各环节留痕记录。

四是实现敏感词的“双提醒”功能。智能系统中敏感词在档案目录上及档案原文中的高亮提示,起到了很好的辅助作用,人工审核员在查看原文时可以重点查看提示部分,避免遗漏。

五是实现人工智能预测及自动分库。能对OCR识别率高的数字档案进行AI智能预测及自动分库,即在开放审核前即根据人工智能开放审核结果预分为拟开放库、拟控制库等。自动分库对审核员较准确的提示效用,可以指定人员专门审核开放库或控制库,短期内提高开放库或控制库审核人员业务熟练程度,同时简化了审核人员培训流程。

3 应用及意义

一是研究对象适应了新形势发展。档案工作新形势发展势必以电子档案、数字档案爆发式增长为主要依托,有别于传统载体档案,基于数字档案的成果应用已经在改变着档案界的传统工作。本课题选取了档案开放审核这一传统的档案工作来研究,创新之处在于此项工作之前的研究应用对象是传统载体,而从今往后,档案开放审核的研究对象更多的是各综合档案馆档案数字化成果和常规接收的电子档案,进而可能是数据化的数字档案,因此课题在研究对象上具有创新意义。

二是研究模式结合了新技术发展。课题创造性地将档案传统工作与人工智能技术相结合,通过应用智能辅助系统,全面提高了工作效率。以福建省档案馆为例,通过应用课题研究成果,按照目前已完成的开放审核数量测算,人工智能辅助开放审核极大地提升了档案开放审核工作效率。

三是研究成果满足了新发展要求。课题研究过程结合了大量的实际工作成果,通过研究成果结合技术应用,突破了档案开放审核业务瓶颈,为档案馆数字化工作转型提供了一个应用场景、一个技术应用方案、一个成熟工作案例,满足了当前档案工作发展的要求。该研究成果可复制可推广,特别是总结出“四个一”成果可以进一步推广。

综上,项目组立足福建省档案馆馆藏档案数字化成果和档案开放审核工作经验,结合人工智能技术,形成了一套基本适合各级国家综合档案馆开展档案开放审核的工作模式,研发了一套满足各级国家综合档案馆的档案智能开放审核系统,对于各级国家综合档案馆开展档案开放审核工作,提升档案开放审核工作的效率有一定的参考作用。


Copyright © 2023 航旭信息科技 版权所有 Powered by HANGXU
电 话:400-611-8065 地 址:贵阳市花溪区清溪路88号
黔ICP备2022009797号

扫一扫关注微信公众帐号