(12)发明专利申请
(10)申请公布号 CN 109582925 A(43)申请公布日 2019.04.05
(21)申请号 201811323385.X(22)申请日 2018.11.08
(71)申请人 厦门快商通信息技术有限公司
地址 361007 福建省厦门市思明区嘉禾路
267号9楼902室B区(72)发明人 张泽明 肖龙源 蔡振华 李稀敏
刘晓葳 谭玉坤 (74)专利代理机构 厦门仕诚联合知识产权代理
事务所(普通合伙) 35227
代理人 乐珠秀(51)Int.Cl.
G06F 17/21(2006.01)G06F 16/332(2019.01)
权利要求书1页 说明书4页 附图4页
()发明名称
一种人机结合的语料标注方法及系统(57)摘要
本发明公开了一种人机结合的语料标注方法及系统,其获取待标注的语料数据并进行人工观测;根据用户输入的定位信息对所述语料数据进行关键语料的定位;对定位的关键语料进行突出标记,得到标记语料;通过筛选算法从所述语料数据中提取所述标记语料;对所述标记语料进行语料类别的标注,得到标注语料;从而实现人机结合的语料标注,能够辅助标注人员提高标注效率,减少标注人员的工作量,并具有一定的互动性,减轻乏味感。
CN 109582925 ACN 109582925 A
权 利 要 求 书
1/1页
1.一种人机结合的语料标注方法,其特征在于,包括以下步骤:a.获取待标注的语料数据并进行人工观测;
b.根据用户输入的定位信息对所述语料数据进行关键语料的定位;c.对定位的关键语料进行突出标记,得到标记语料;d.通过筛选算法从所述语料数据中提取所述标记语料;e.对所述标记语料进行语料类别的标注,得到标注语料。2.根据权利要求1所述的一种人机结合的语料标注方法,其特征在于:所述的步骤a中,所述语料数据为表格文本;所述的步骤b中,所述的关键语料的定位,是通过单元格定位的方法,根据用户输入的行列信息得到所述单元格对应的关键语料。
3.根据权利要求1所述的一种人机结合的语料标注方法,其特征在于:所述的步骤a中,所述语料数据为文档文本;所述的步骤b中,所述的关键语料的定位,是通过行号定位的方法,根据用户输入的行号信息得到所述行号对应的关键语料。
4.根据权利要求1至3任一项所述的一种人机结合的语料标注方法,其特征在于:所述的步骤b中,是通过一命令窗口进行输入所述定位信息;并且,在所述命令窗口中向用户展示所述定位信息的提示语。
5.根据权利要求1至3任一项所述的一种人机结合的语料标注方法,其特征在于:所述的步骤c中,所述突出标记,是指对所述标记语料添加不同于原始的语料数据的字体颜色或背景颜色。
6.根据权利要求5所述的一种人机结合的语料标注方法,其特征在于:所述的步骤d中,所述筛选算法是指根据颜色条件从所述语料数据中提取所述标记语料。
7.根据权利要求1至3任一项所述的一种人机结合的语料标注方法,其特征在于:所述的步骤e中,对所述标记语料进行语料类别的标注,是采用人工标注语料类别,或者采用机器学习对所述标记语料进行语料类别的训练。
8.一种人机结合的语料标注系统,其特征在于,包括:数据采集模块,用于获取待标注的语料数据并进行人工观测;语料定位模块,用于根据用户输入的定位信息对所述语料数据进行关键语料的定位;语料标记模块,用于对定位的关键语料进行突出标记,得到标记语料;语料筛选模块,其通过筛选算法从所述语料数据中提取所述标记语料;语料标注模块,用于对所述标记语料进行语料类别的标注,得到标注语料。
2
CN 109582925 A
说 明 书
一种人机结合的语料标注方法及系统
1/4页
技术领域
[0001]本发明涉及自然语言处理技术领域,特别是一种人机结合的语料标注方法及其应用该方法的系统。
背景技术
[0002]语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。传统的语料库主要应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。随着互联网大数据及人工智能技术的发展,语料库也被广泛的应用。
[0003]语料库中存放的是在语言的实际使用中真实出现过的语言材料,例如直接从网页上获取的用户留言、客服对话等;语料库是承载语言知识的基础资源,但并不等于语言知识;真实语料需要经过加工,才能成为有用的资源,对真实语料的加工可包含除脏数据、语义标注、词性标记等,而在对语料进行标注时,往往需要靠人工或机器学习对各个语料数据进行标注。
[0004]但是,现实中获取到的大规模数据往往并不是相应人员所期望的那样完全有用,大规模语料的加工标注,现实中不可能单靠机器完成,更多的是需要一定的人力去完成标注。该种情况的存在,导致需要花费一定量的人力资源或财力资源,甚至降低一个开发团队的效率。
[0005]因此,如果能降低这方面的困难,把人力资源从这种困难中出来,必然能够一定量的提高项目的效率以及进度的提高。
发明内容
[0006]本发明为解决上述问题,提供了一种人机结合的语料标注方法及系统,能够辅助标注人员提高标注效率,减少标注人员的工作量。[0007]为实现上述目的,本发明采用的技术方案为:[0008]一种人机结合的语料标注方法,其包括以下步骤:[0009]a.获取待标注的语料数据并进行人工观测;[0010]b.根据用户输入的定位信息对所述语料数据进行关键语料的定位;[0011]c.对定位的关键语料进行突出标记,得到标记语料;[0012]d.通过筛选算法从所述语料数据中提取所述标记语料;[0013]e.对所述标记语料进行语料类别的标注,得到标注语料。[0014]优选的,所述的步骤a中,所述语料数据为表格文本;所述的步骤b中,所述的关键语料的定位,是通过单元格定位的方法,根据用户输入的行列信息得到所述单元格对应的关键语料。
[0015]或者,所述的步骤a中,所述语料数据为文档文本;所述的步骤b中,所述的关键语料的定位,是通过行号定位的方法,根据用户输入的行号信息得到所述行号对应的关键语
3
CN 109582925 A
说 明 书
2/4页
料。
优选的,所述的步骤b中,是通过一命令窗口进行输入所述定位信息;并且,在所述
命令窗口中向用户展示所述定位信息的提示语。[0017]优选的,所述的步骤c中,所述突出标记,是指对所述标记语料添加不同于原始的语料数据的字体颜色或背景颜色。[0018]优选的,所述的步骤d中,所述筛选算法是指根据颜色条件从所述语料数据中提取所述标记语料。[0019]优选的,所述的步骤e中,对所述标记语料进行语料类别的标注,是采用人工标注语料类别,或者采用机器学习对所述标记语料进行语料类别的训练。[0020]对应的,本发明还提供一种人机结合的语料标注系统,其包括:[0021]数据采集模块,用于获取待标注的语料数据并进行人工观测;[0022]语料定位模块,用于根据用户输入的定位信息对所述语料数据进行关键语料的定位;
[0023]语料标记模块,用于对定位的关键语料进行突出标记,得到标记语料;[0024]语料筛选模块,其通过筛选算法从所述语料数据中提取所述标记语料;[0025]语料标注模块,用于对所述标记语料进行语料类别的标注,得到标注语料。[0026]本发明的有益效果是:[0027](1)本发明通过人工观测、语料定位、语料标记、语料提取、语料标注的方法,实现人机结合的语料标注,能够辅助标注人员提高标注效率,减少标注人员的工作量;[0028](2)本发明的语料数据采用表格文本或者文档文本,并采用单元格定位或者行号定位的方法,能够快速定位和提取关键语料;[0029](3)本发明采用颜色标记的方法对关键语料进行突出标记,并根据颜色条件对标记语料进行筛选和提取,更加直观,提高准确性;[0030](4)本发明通过一命令窗口供用户输入定位信息,并向用户展示定位信息的提示语,具有一定的互动性,减轻乏味感。附图说明
[0031]此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:[0032]图1为本发明第一实施例的人机结合的语料标注方法的流程简图;[0033]图2为本发明第一实施例的命令窗口示意图(表格文本);[0034]图3为本发明第一实施例的语料标记结果示意图(表格文本);
[0035]图4为本发明第一实施例的标记语料的筛选结果示意图(表格文本);[0036]图5为本发明第一实施例的语料类别的标注结果示意图(表格文本);[0037]图6为本发明第二实施例的命令窗口示意图(文档文本)。
具体实施方式
[0038]为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用
4
[0016]
CN 109582925 A
说 明 书
3/4页
以解释本发明,并不用于限定本发明。[0039]第一实施例(表格文本)[0040]如图1所示,本发明的一种人机结合的语料标注方法,其包括以下步骤:[0041]一种人机结合的语料标注方法,其包括以下步骤:[0042]a.获取待标注的语料数据并进行人工观测;[0043]b.根据用户输入的定位信息对所述语料数据进行关键语料的定位;[0044]c.对定位的关键语料进行突出标记,得到标记语料;[0045]d.通过筛选算法从所述语料数据中提取所述标记语料;[0046]e.对所述标记语料进行语料类别的标注,得到标注语料。[0047]本实施例中,所述语料数据为表格文本;所述的关键语料的定位,是通过单元格定位的方法,根据用户输入的行列信息得到所述单元格对应的关键语料。[0048]所述的步骤b中,是通过一命令窗口进行输入所述定位信息;并且,在所述命令窗口中向用户展示所述定位信息的提示语;如图2所示,本实施例中,所述的行列信息是通过先指定列信息,再所述列信息的基础上再进一步指定一个以上的行信息;所述提示语是先提示用户输入列信息,再提示用户用户输入一个以上的行信息,从而无需重复输入列信息,节约操作时间。
[0049]所述的步骤c中,所述突出标记,是指对所述标记语料添加不同于原始的语料数据的字体颜色或背景颜色;如图3所示,本实施例中采用添加红色的字体颜色对标记语料红色标记。
[0050]所述的步骤d中,所述筛选算法是指根据颜色条件从所述语料数据中提取所述标记语料;如图4所示,本实施例中采用excel自带筛选功能对所述标记语料进行筛选,以忽略其他语料使得界面更简洁。[0051]所述的步骤e中,对所述标记语料进行语料类别的标注,是采用人工标注语料类别,或者采用机器学习对所述标记语料进行语料类别的训练;如图5所示,采用另一列进行记录所述标记语料的语料类别,对其他语料可不作任何处理。[0052]第二实施例(文档文本)
[0053]本实施例与第一实施例的主要区别在于:本实施例中,所述的步骤a中,所述语料数据为文档文本;所述的步骤b中,所述的关键语料的定位,是通过行号定位的方法,根据用户输入的行号信息得到所述行号对应的关键语料。[00]另外,本实施例中还提供了一种优化的命令窗口;如图6所示,所述命令窗口不仅向用户展示所述定位信息的提示语,还进一步对用户输入的定位信息进行确认的反馈语,例如“OK”、“正确”,或者“输入错误”等,以便用户能够及时收到反馈,交互性更好。[0055]本实施例的其余标注过程与第一实施例基本相似,在此不进行赘述。[0056]第三实施例(标注系统)[0057]另外,本发明还提供一种人机结合的语料标注方法相对应的系统,其包括:[0058]数据采集模块,用于获取待标注的语料数据并进行人工观测;[0059]语料定位模块,用于根据用户输入的定位信息对所述语料数据进行关键语料的定位;
[0060]语料标记模块,用于对定位的关键语料进行突出标记,得到标记语料;
5
CN 109582925 A[0061]
说 明 书
4/4页
语料筛选模块,其通过筛选算法从所述语料数据中提取所述标记语料;
[0062]语料标注模块,用于对所述标记语料进行语料类别的标注,得到标注语料。[0063]需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。[00]并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0065]上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
6
CN 109582925 A
说 明 书 附 图
1/4页
图1
7
CN 109582925 A
说 明 书 附 图
2/4页
图2
图3
8
CN 109582925 A
说 明 书 附 图
3/4页
图4
图5
9
CN 109582925 A
说 明 书 附 图
4/4页
图6
10
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- awee.cn 版权所有 湘ICP备2023022495号-5
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务