您当前的位置 : 每日甘肃网  >  甘肃  >  甘肃播报  >  科教

甘肃省研究团队填补空白 首个简牍字符检测与识别大规模数据集正式发布

 2025/03/27/ 08:30 来源:兰州晚报 记者 马文艳

我省研究团队填补空白

首个简牍字符检测与识别大规模数据集正式发布

  每日甘肃网3月27日讯 据兰州晚报报道 3月26日,记者从西北师范大学获悉,由该校联合甘肃简牍博物馆推出的简牍字符检测与识别数据集——DeepJiandu数据集正式对外发布。该数据集的发布填补了历史文献数字化与人工智能结合的空白,标志着简牍智能化研究的重要进展,不仅为简牍整理与自动识别提供了重要支持,也将进一步推动数字人文领域的持续创新与发展。

  据介绍,该数据集共包含7416张图像,标注了99852个字符,涵盖2242个类别,能够提供极具挑战性的简牍字符识别任务场景。数据集基于红外图像资料构建,显著增强了墨迹清晰度,为简牍的数字化保护与学术研究提供了坚实的数据基础。

  简牍(Jiandu)是中国古代记录历史信息的重要媒介,其历史可追溯至战国、秦、汉、魏晋等时期。然而,由于简牍材料的脆弱性,长期埋藏环境导致字符模糊、字迹缺损、布局复杂等问题,使得人工识别与整理极为困难。现有的文献数字化技术虽在甲骨文、蒙文手写体、巴厘岛棕榈叶手稿等领域取得突破,但在简牍字符识别方面仍缺乏高质量的数据集,制约了深度学习在该领域的应用。DeepJiandu数据集的构建正是为了解决这一问题。

  该数据集由简牍学专家与计算机团队联合标注,涵盖2242种常用字符类别,确保专业性与准确性。其设计充分考虑了字符残损、异形字、多种排布等复杂场景,有效提升了模型对历史文献的适应能力。

  据了解,研究团队依托已有红外图像资料,从1万余件简牍文物中筛选出7416张高质量图像,覆盖不同材料、书写风格与字体特征,确保数据的代表性与多样性。所有图像使用目标检测标注工具(LabelImg)对99852个字符进行了精细标注,包括字符位置与类别信息。整个过程在专家释读指导下完成,兼顾学术价值与机器可读性。

  为确保科学性,研究团队将数据集按比例划分为训练集、验证集和测试集,提升模型的泛化能力。数据集的字符类别统计显示,尽管字符尺寸差异较大,但该数据集仍可为多尺度目标检测任务提供良好的支持。此外,结合计算机视觉与历史语言学,该数据集还将推动文博机构的数字化转型,为多模态文化遗产保护提供新的技术路径。

  据悉,随着该数据集的推广,研究团队预计将有更多深度学习、计算机视觉领域的研究者加入简牍OCR研究,并推动人工智能在历史文献解析、文化遗产保护等多学科交叉领域的应用。未来,团队将继续优化数据集,并探索图像融合、文献缀合、书写风格分析、端到端识别等前沿技术,为数字人文研究提供更加全面的技术支持。

  据了解,该工作由西北师范大学简牍研究院、甘肃省简牍智能计算与数字人文工程研究中心张强教授团队具体开展,上海中西书局、甘肃文化出版社提供相关数据资源,西南大学参与数据验证实验工作,相关研究论文发表于国际期刊《Scientific Data》。

  兰州日报社全媒体记者 马文艳

版权声明

1.本文为每日甘肃网原创作品。

2.所有原创作品,包括但不限于图片、文字及多媒体形式的新闻、信息等,未经著作权人合法授权,禁止一切形式的下载、转载使用或者建立镜像。违者将依法追究其相关法律责任。

3.每日甘肃网对外版权工作统一由甘肃媒体版权保护中心(甘肃云数字媒体版权保护中心有限责任公司)受理对接。如需继续使用上述相关内容,请致电甘肃媒体版权保护中心,联系电话:0931-8159799。