多模态反腐案例特征发现与腐败案件发展态势预判人所:公社技术点多反案例的多维度征学习的关键技术和方法,构建可用于腐案件预的发化模型,从现有纪检机关历史案例信息深度处理处罚,针对不同腐,模式技术,取结构化数据的低位特征和非结构化数据转化为结构化数据后的序式,子定犯着行为通常有也定性为和时间序列构成的假设,针对不同腐案
姚新
南方科技大学技术转移中心/电子信息
多模态反腐案例特征发现与腐败案件发展态势预判人所:公社技术点多反案例的多维度征学习的关键技术和方法,构建可用于腐案件预的发化模型,从现有纪检机关历史案例信息深度处理处罚,针对不同腐,模式技术,取结构化数据的低位特征和非结构化数据转化为结构化数据后的序式,子定犯着行为通常有也定性为和时间序列构成的假设,针对不同腐案件类别进行征序模,并建可变维度犯罪疑行为序列特征库。研究具备时序特性的职务犯系,的化规律,分析不同粒度层次上犯罪线索连。社会关系链及犯量之间的构与相作用机制,实现容和线索连社会关系链及犯罪证据链的暗恋“推理体智能的网络路径划算法,实现在推理网络和线索网络上快速寻径,进行要,时案件进行模拟推演和态势预判原理及先进性个研究内容可以大数分为四个阶段,即数据获取信息抽取算法的研究、数据库的设计、可视化的计与实。最终实现整个过程的自动化进行,通过定期对于数据源的数据抓取,并通过相的信息按取算法行信息推取,将非结构化的文本数据转为结构化,同时对于获取的信息自动存入中并通过以可程化的形式显示对于数据的分析的结果。系统框图如图一。实施方在数据的获取段,将通过前期的调研工作,确定数据来之后,对于相关网站进行网站的逻辑分析,结合当前主要的由技术,分析数据取的可能与难度,实现对数据的自动取存储多数同时会有一精反爬术,所以如何突破数据原网站的反虫限制等也是研究内容之一。在能够顺利完成下载之后,同时需要考虑下载的效率,将用多线程等方式完成对于数据的快速获取,另外在实际的应用当中,经常会遇到网络故障等异常,为提高整个系统的稳定性,异常处理也是一个重要内容在获取数据之后,如何完成对于非结构化的判决文书文本进行信息抽取转为结构化信息为本系统的主要研究内容之一先,请过人工的方式对数据进行预先分析,确定判决书信息抽取结构以及决书当中的哪些数据可以作为待抽取项的内容,确定信息的抽取方向,同时根据项目的要求,拟将对于以下类别信息进行准确抽取。份文书信息决时间、案由、决法院、原告被告、法官、审判长、审判员、公诉机关、判决被告人信息被告人姓名、上诉人姓名、性别、出生日期、出生地民族、文化程度、辩护人、律师事务所罪线索犯时间行受顾人员、行受金额、地点信息、机构信息判决信息法律条文依据、量、是否自首等信息。在确定了信息抽取的目标之后,需要对于信息抽取的相关技术进行调研,基于模式匹配、语义理解和名实体识别等是当今信息抽取的主要方式,针对不同的数据项进行分词探究以采取最佳的抽取算法而现有的算法有时不一定能够很好的完成项目的需要,所以针对于已经存在的相关算法进行改进创新也是研究的重要内容之一当在能够顺利获得结构化的数据之后,如何对于数据进行有效的存储以供接下来的项目需求也是研究的一个重点,选择MySQL数据库,面对将会产生的多达千万级的数据,如何优化数据表的结构,以及如何提高数据写入和查询的性能和效率也是重要的考虑问题之一。而包括数据库的安全稳定也是构建一个系统必须考虑的问题系统的可化拟选用web端展示,能够实现很好的跨平台效果。在基于抽取的信息项,同时基于项目的要求,如何完成多维度的数据展示,直观的提供数据当中存在的规律也是需要考虑的问题,正确的呈现贪污犯罪的特点和内在规律,这也为债查人员和国家的制度创新提供参考依据。另根据项目的要求,需完成腐败趋势预判等功能,则在信息抽取阶段当中抽取的犯罪信息链有着重要的作用,基于概率图的方法来预测推断下一步的最佳值查方向,为侦查人员提供辅助最后一个阶段,作为一个文本分析可视化系统,需要考虑系统的总体架构,实现信息的获取、信息抽取、信息储存、和信息的可视化展示之间的互通互联,系统架构合理,系统的稳定性、安全性均为需要考虑的重点内容。系统采取模块化的结构方式,整体采取自动化的工作形式,无需人为干预能够实现数据的自动更新和一系列的后期抽取并同步到web的可视化界面上