庖丁科技赋能资本市场前线监管

2018-11-15 15:30:56 来源: 钱柜娱乐官网 作者: 李钊

本网记者 李钊

近期,庖丁科技中标证券期货业金融科技研究发展中心(深圳)(以下简称“深交所”)——“证券文本信息抽取技术研究”项目,以证券市场文本信息为对象,研究利用自然语言处理技术,从披露公告中抽取指定的文本信息,并且满足具有一定技术性能指标要求的课题。

资本市场上,信息披露作为法规,通常要求信息披露义务人“应当真实、准确、完整、及时地披露信息”。我国上市公司信息披露的内容大体可分为三类:证券发行文件、定期报告和临时报告。

上市公司的公告信息披露必须在指定信息披露网站发布,主要为PDF格式。以深市上市公司为例,2016年全年共披露265985篇公告,2017年共披露291607篇,随着上市公司数量日益增多,这一数字也会逐年增加,不但为深交所的合规检查带来压力,也给投资者带来极大的信息负载。如何将海量公告更有效、更高效地让阅读人“读薄”?其中通过自然语言处理、深度学习等技术将公告信息结构化提取成为关键所在。

正因如此,庖丁科技正在持续而坚定地推进该项工作。他们首先通过卷积神经网络对公告中的段落表格等信息进行分割抽取。为了适应样本数量稀少的问题,他们还提出了一种轻量级的机器学习方法。该方法能够高效地将不同类别公告的关键语句抽取出来,并使之具有在线学习的能力,抽取过程仅需公告制作业务专家对少量公告进行标注,即可达到可用效果。关键语句抽取后,再通过LSTM神经网络进行细粒度提取,从而将公告结构化。目前,庖丁科技对并购重组公告的结构化抽取的工作已取得较为理想的结果,提升了深交所监管工作的效率。这项工作的探索不仅为扩展更多公告类型奠定基础,也为其他类型文本处理带来了宝贵经验。

利用非结构化信息抽取技术,我们能够把隐藏在海量公开公告中企业与企业、企业与个人关系进行深度挖掘,并且透视、洞察企业的价值及风险。作为国内拥有世界领先的金融文本信息抽取技术、有能力利用深度学习和金融知识库进行高精度的结构化信息提取的先进团体,庖丁科技将继续全力服务金融行业,助力金融机构进一步提升服务实体经济的能力。

庖丁科技是一家以人工智能技术为核心的金融科技行业探路者,致力于将国际最前沿的深度学习(Deep Learning)、自然语言处理(Natural Language Processing)、富格式数据(Richly Formatted Data)解析等技术与金融各垂直领域专业知识进行深度融合,帮助传统金融行业打造新一代核心竞争力。庖丁科技专注于做一家人工智能领域的长青企业,从大处着眼,以小处入手,努力成为中国领先的新一代金融数据提供商和新一代智能金融服务商。

加载更多>>
责任编辑: 桂楷东
专题 更多>>
国内 更多>>

闻所未闻:青藏高原牦牛...

中国农科院24日公布其两年来“有代表性的”10项重大科技进展。其中,兰州畜牧与兽药研究所阎萍研究团队培育...

全国首个“高凤林工匠班...

5月18日上午,北华航天工业学院“高凤林工匠班”揭牌仪式在该校航天人才培训中心举行。

“藏粮于技”科技行动:...

中国农科院24日宣布启动“藏粮于技”等五大系列科研计划;其中“藏粮于技”科研计划将重点开展育种技术提升...

“新型医用金属材料及植...

5月22日至23日,在科技部国家重点研发计划相关专项的大力支持下,由国家药品监督管理局医疗器械技术审评中心...

农业农村部发布2019年第...

近日,农业农村部组织完成了2019年第一季度国家农产品质量安全例行监测(风险监测)。

科报集萃 更多>>

中日大学展暨论坛:近百...

本次论坛共有40多所日本大中院校正副校长、以及科研机构和企业负责人等230余人抵蓉;来自46所中国大中院校的...

我国高发癌症疾病谱和西...

在肺癌的驱动基因中,表皮生长因子且突变的EGFR在我国肺癌整体发生率为40%,女性的乳腺癌发生率为60%,远高...

你懂麻醉吗?麻醉不仅是...

镇静、镇痛易理解,肌松是什么?他真的那么重要?

首例“暗刷流量”案在北...

常某诉许某暗刷流量案件,23日在北京互联网法院公开开庭审理,该案涉及通过购买网络暗刷服务提高游戏点击量...