CIEC-CTC 2021 (Chinese Text Correction) 数据及模型下载(2021.11.03更新) 下载内容 下载链接 访问密码训练数据 讯飞云下载 girA baseline模型 讯飞云下载 HJiB 验证集 https://github.com/destwang/CTCResources - 2022.09.27 CAIL 2022文书校对比赛开始了!参赛时间2022.08.10-2022.11.15 比赛简介: 法律文书作为司法机关及公民行使法律权利同时享受法律效益的载体,对文字内容的准确性要求极其严格。本任务旨在通过机器智能文本校对技术辅助司法人员自动检出并纠正法律文书中存在的错误。本任务涵盖了法律文书中存在的别字、冗余、缺失、乱序四种类型的错误。 本次比赛有大量法律文书数据和丰厚的奖金,欢迎大家报名参加! 2022.08.12 比赛Overview论文已发布,引用请参考: @Article{wang2022ctc, title={Overview of CTC 2021: Chinese Text Correction for Native Speakers}, author={Zhao, Honghong and Wang, Baoxin and Wu, Dayong and Che, Wanxiang and Chen, Zhigang and Wang, Shijin}, journal={arXiv preprint arXiv:2208.05681}, year={2022} } 2022.03.15 CTC 2021中文文本纠错比赛正式开放公开评测,榜单详情见CTC 2021 Leaderboard,欢迎大家参与评测。 2021.09.01 目前还有几支队伍的成绩正在评测中,预计明后天将会公布最后的榜单。 2021.08.19 决赛成绩榜单在git上定时更新,请在排名列表查看。成绩将在每支队伍提交系统后两个工作日内进行更新,比赛结束后,最终成绩榜单将于人工智能协会比赛官网进行公布. 2021.08.12 对评测方法进行优化,优化连续冗余的评测,详情见更新脚本。 2021.08.10 更新评测脚本,使用方法见ctc_gector/README.md 2021.08.06 已通过邮件将第二阶段训练集、验证集数据发送给通过初赛的队伍,请参赛队伍查收。 2021.07.27 发布文本校对资源集合,供选手参考。 2021.07.08 更新Baseline模型代码,方便选手复线模型。使用方法见ctc_gector/README.md 2021.07.07 对选手常见问题进行总结归纳,详见。 2021.07.01 开放资格赛评测,发放资格赛评测数据及Baseline。 Baseline模型使用GECToR, 训练和推理代码见ctc_gector,模型将邮件发放给各参赛队伍。 2021.06.28 增加报名成功队伍信息,包括队伍名和codalab账号。 2021.06.25 训练数据已邮件发送给通过报名审核的队伍,如未收到邮件,请联系rdg_feiying@iflytek.com。 Baseline将于资格赛开始(7月1日)发布。 比赛当前排名(2021.09.03更新) 排名 队伍名 Codalab账号 机构 detect_f1 correct_f1 final_score1 S&A S&A 苏州大学&阿里巴巴达摩院 68 64.6 67.32 2 改的都队 qifanchao866 清华大学 62.405 57.205 61.365 3 znv_sentosa zyang 深圳力维智联技术有限公司 55.035 43.055 52.639 4 C&L jiahao12138 北京理工大学 51.126 48.649 50.631 5 MDatai wufangzhou 上海蜜度信息技术有限公司-新浪微热点研究院 51.233 47.374 50.461 6 YCC YCC2021 北京铀媒科技有限公司 49.804 42.745 48.392 7 NJU-NLP yongchang_cao 南京大学自然语言处理实验室 49.02 39.651 47.146 8 四条人 AntPlusOne 蚂蚁金服 41.505 35.68 40.34 9 ai编程的小拓 liuyz 拓尔思信息技术股份有限公司 38.372 31.628 37.023 10 zybank mzt_zybank 中原银行 37.863 33.217 36.934 11 华夏—龙盈战队 Guanyuhang 华夏银行股份有限公司、龙盈智达(北京)科技有限公司 28.646 21.875 27.292 12 yl_test yuanhong 北京猿力未来科技有限公司 26.516 16.925 24.598 13 晓梦 zhaogang 人民网 20.997 14.173 19.632 14 only-one zjjbupt 北邮 20.709 14.468 19.461 15 zndx纠错好难 ShanYouRan 中南大学 17.714 9.714 16.114 16 DAWN redbird MideaAIIC 6.326 3.128 5.686 比赛介绍 文本校对任务主要是针对文本中出现的错误进行检测和纠正,属于综合性的自然语言处理研究子方向,能够比较全面体现了自然语言处理的技术水平。过往文本校对相关评测使用的都是外国语言学习者撰写的文本,这些文本的错误大多数都是一些中文母语写作者不会犯的一些错误。对于政务公文、新闻出版等行业来说,一款针对以中文为母语的用户所使用的校对系统将会有更大的帮助。因此,本赛题主要选择互联网上中文母语写作者撰写的网络文本作为校对评测数据,从拼写错误、语法错误、语病错误等多个方面考察机器的认知智能能力。 比赛网站 https://competitions.codalab.org/competitions/32702 训练数据及Baseline系统 训练数据、Baseline模型已邮件发送给通过报名审核的队伍,如未收到邮件,请联系rdg_feiying@iflytek.com。 验证集及提交数据 验证集及数据提交格式可从比赛页面(codalab)获取,获取路径为:“Participate--File--Public Data” 其中,需要注意提交数据的格式:
若句子中没有错误,则直接返回"pid, -1", 如pid=0011-2, -1
若句子中有错误,则所有字段之间均以英文“,”连接,所有英文逗号的个数应为 4*n+1 个。如“pid=0011-1, 20, 别字, 轮, 论, 46, 别词, 标识, 表示,”
将预测结果命名为"dev.predict",并直接压缩为zip文件,不要保留文件夹。可参考Public Data中的submit_sample.zip 比赛页面存在拥堵情况,数据提交后可能需要一段时间才能得到评测得分。 评测委员会 主席 副主席 秘书长 FAQ Q:队员还需要发送报名邮件吗? Q: 是否需要提交训练数据集和系统代码? Q:评测指标 Q:是否可以使用自己训练的预训练模型? Q:是否可以自己生成伪数据? Q:是否可以自己标注?是否可以使用未公开数据? Q:是否可以使用GitHub上公开的代码修改? Q:提供的伪数据生成方式? Q:数据集在哪里下载? Q:是否有讨论交流群? Q:训练数据中频繁出现字符串67。 Q:分隔符使用英文逗号还是英文逗号加空格?如果更改的内容存在英文逗号怎么表示? Q:句子的起始索引是0还是1? |