从字数统计到数据联网
Posted: Sat Feb 08, 2025 4:15 am
“必须用清晰的图像来对抗模糊的想法” - 让-吕克·戈达尔,1967 年(《中国姑娘》)
“一切可以成为科学思想主题的事物,一旦成熟到可以形成理论,就会落入公理方法,从而间接地落入数学。” –大卫·希尔伯特,1918 年
有两条路径可以通向计算语言学的今天:一条可以追溯到耶稣会牧师罗伯托·布萨 (Roberto Busa) 的一项倡议,他在 1940 年至 1947 年间与 IBM 创始人托马斯·沃森 (Thomas J. Watson) 对托马斯·阿奎那 (Thomas Aquinas) 的著作进行了计算机辅助词形还原,并用《托马斯索引》(Index Thomisticus)(自 2005 年起可在线获取[1])展示了数字文本分析的最早例子。直到 2011 年去世,布索一直致力于计算机辅助解释学和词典学的研究方法。在德国,哲学家马克斯·本斯致力于将信息论和计算机技术融入到他的语言结构分析中。[2]在英国,从南非移民到英国的诺贝尔文学奖获得者数学家 JM 库切,试图在德国物理学家威廉·富克斯(Wilhelm Fucks)的文体分析方法的基础上进行研究。富克斯在 20 世纪 50 年代将量化方法引入到了文学研究和语言学中。[3]库切在 1969 年的论文中首次提出用数学方法对塞缪尔·贝克特的英文文本进行文体计量分析。[4]
另一条路径源自编辑文献学的悠久历史。第一个数字版本出现于 20 世纪 90 年代初,亚美尼亚电报数据 当时正值 CD-ROM 的商业发行;这是第一次发现一种具有足够存储整本笔记簿(或 74 分钟的音乐)容量的移动数据存储设备。最早的项目之一是将尼采作品的 Colli/Montinari 版书籍数字化,de Gruyter 出版社于 1994-1997 年在 CD-ROM 上出版了该书籍,现在可以在线获取。[5] 最新的之一是都柏林高等研究院出版的 3D 版欧甘石碑,也可以在线获取;它是爱尔兰的国家纪念碑,也是爱尔兰语和爱尔兰字母早期阶段的独特见证,以石刻铭文的形式流传下来。[6]
“一切可以成为科学思想主题的事物,一旦成熟到可以形成理论,就会落入公理方法,从而间接地落入数学。” –大卫·希尔伯特,1918 年
有两条路径可以通向计算语言学的今天:一条可以追溯到耶稣会牧师罗伯托·布萨 (Roberto Busa) 的一项倡议,他在 1940 年至 1947 年间与 IBM 创始人托马斯·沃森 (Thomas J. Watson) 对托马斯·阿奎那 (Thomas Aquinas) 的著作进行了计算机辅助词形还原,并用《托马斯索引》(Index Thomisticus)(自 2005 年起可在线获取[1])展示了数字文本分析的最早例子。直到 2011 年去世,布索一直致力于计算机辅助解释学和词典学的研究方法。在德国,哲学家马克斯·本斯致力于将信息论和计算机技术融入到他的语言结构分析中。[2]在英国,从南非移民到英国的诺贝尔文学奖获得者数学家 JM 库切,试图在德国物理学家威廉·富克斯(Wilhelm Fucks)的文体分析方法的基础上进行研究。富克斯在 20 世纪 50 年代将量化方法引入到了文学研究和语言学中。[3]库切在 1969 年的论文中首次提出用数学方法对塞缪尔·贝克特的英文文本进行文体计量分析。[4]
另一条路径源自编辑文献学的悠久历史。第一个数字版本出现于 20 世纪 90 年代初,亚美尼亚电报数据 当时正值 CD-ROM 的商业发行;这是第一次发现一种具有足够存储整本笔记簿(或 74 分钟的音乐)容量的移动数据存储设备。最早的项目之一是将尼采作品的 Colli/Montinari 版书籍数字化,de Gruyter 出版社于 1994-1997 年在 CD-ROM 上出版了该书籍,现在可以在线获取。[5] 最新的之一是都柏林高等研究院出版的 3D 版欧甘石碑,也可以在线获取;它是爱尔兰的国家纪念碑,也是爱尔兰语和爱尔兰字母早期阶段的独特见证,以石刻铭文的形式流传下来。[6]