Page 1 of 1

通常需要执行几个预处理步骤

Posted: Sat Feb 08, 2025 4:25 am
by Bappy11
与人的脸或指纹类似,手写文本可以作为生物识别符。从这个意义上讲,作者[1]识别是一个研究领域,即在给定一组已知作者的情况下识别手写文本文档的作者。

在文档分析界,自动书写者识别 (AWI) 在过去十年中获得了极大的关注。在国际文档分析与识别会议 (ICDAR) 和国际手写识别前沿会议 (ICFHR) 等著名会议上,组织了几场以识别特定书写者为目标的竞赛。然而,这些竞赛是在当代甚至是人工数据集上进行的。[2] 签名验证是一个主要受商业和法医应用推动的研究领域,也可以在此背景下提及。

直到最近,AWI 才开始应用于历史文献。例如,奥地利科学基金资助的DAmalS (Datenbank zur Authentifizierung mittelalterlicher Schreiberhände) 项目[3]成功地高度确定地确定了 Hugo von Montfort 手稿中抄写员手迹的正确数量。 [4] 同样,Flecker 等人[5]分析了两份手稿中抄写员手迹的数量。此外,他们还使用由 12 位抄写员书写的 60 份手稿(约 4500 页)的语料库展示了其方法的有效性。在这里,当作者剔除一份完整的手稿并将其与所有其他手稿进行测试时,准确率达到了 100%。

由于我们处理的是历史文献,因此我们的工作重点是相似的;但是,我们的数 奥地利电报数据 据集包含数百个而不是数十个抄写手稿。实际上,我们使用了两个大型字母数据集:Clusius 数据集和 Schuchardt 数据集(见图1)。此外,我们的评估不仅限于整个文档(手稿),因为我们还以单页为度量单位进行评估。