参考封面|人工智能如何破解最古老文字之谜?

  参考消息网8月14日报道 英国《新科学家》周刊8月6日刊登题为《人Gōng智能如何揭示古代楔形文字的秘密》的文章,作者是艾莉森·乔治。全文摘编如下:

  在英国伦敦不列颠博Wù馆一扇锁着的房门背后,有一个漂亮的图书馆。在这个Mì密房间里,欧文·芬克尔打开一个抽屉,拿出一块泥板。这块破Liè并被火烧过的泥Bǎn上,刻着世界最古老文字的小小符号。另一个抽屉放着另一块泥板。芬克尔是这家博物馆里古代美索不达米亚文字、语言Hé文化的助理保管员,也是世界上能够流利阅读这种早已消亡的文字——Xiē形文Zì的少数人之一。

  在Wǒ们身后,一名摄影师正Zài仔细地拍摄这些文字的照片,有Guāng专门Dǎ在Zhè些蚀刻Fú号上。这项工作是Yī场Gé命的组成部分,这场革命正利用今天的计Suàn能力,试图复活这些有着5000年历史的文字记录,并揭开世界最早文明的新秘密。

  尽管这一书写体系在165年前JiùPī破译了,但使用该体系的文本大多从未被翻译成现代语言。Zhè是一项极其复杂的任务,依Lài芬克尔这样的专家。现在,由于人工智Néng的发展,计算机正在接受一些训练,Yǐ阅读和翻译楔形文字,将碎裂的泥板Zhòng新拼凑起来以重建古代图书Guǎn,Shèn至预测缺失的文本。

  记录人类历史

  楔形文字的故事始于约6000年前的美索不达米亚,那是底格里斯河和幼发拉底河Zhī间的肥沃土地,现Zài是Yī拉克。在那里,苏美尔人建立了最Zǎo的一Xiē城邦。

  虽然这些人讲的语言(苏美尔语)与我们所知道的任何语言都截然不同,并且早已消亡,但我Mén拥有关于他们生活的了不起De记录,因为据我们所知,那里就是文字的起源地。他们把芦苇端部压在湿润黏土上,做成一些楔形形状,这使Děi这种文字有了它的现代名字:楔形文字。

  楔形文字本身不是一种语言,ér是一套书写系统,就好比用来书写英语De字母也可以用于法语或德语。苏美尔语最终消亡了。然而,楔形文Zì继续存Zài,并成为许多其他语言的书写形式,比如阿卡德语、赫梯语和古波Sī语。楔形文字在消亡前为人们所使用了3000年,记录了古老王国De诞生和灭亡。

  我们对ZhèFāng面的了解归功Yú用来刻楔形文字的黏土:它是一种便宜、容易获得且耐用的材Liào。芬克尔说:“这对我们来说非常幸运,Yīn为任何曾被书写过的泥板都能保存下来,除非它被扔Jìn河里或被彻Dǐ砸Suì。”

  如今,有成千上万块这样的泥板构成世界文化遗产的重要组Chéng部分。它们记录了我们这个星球上的第一批伟大帝国,Huán有赞美Shī、信Jiàn、购物清单,甚至还有顾客投诉。德国慕尼黑路德维希—马克Xī米利安大学的恩里克·希门尼斯说:“人们说,人类历史的前半部分都被记Lù在这些楔形文Zì泥板中。”

  找回缺失过去

  人们不断从泥板上破译出新秘密。2017年,一块有Zhuó3700年历史的、编号为“普林顿322”的小泥板,作为世界上最古老的三角函数Biǎo为人们所知。它显示,最早研究三角的是巴比伦人,而不是希腊人。Rán而,由于只有大约75人能流利阅读Xiē形文字,所以大多数泥板未能得到解读,放在博物馆库房里积灰。

  一个问题是楔形文字非常复杂。希门尼斯说:“这种文字很不明确。一个词De书写方式并不是单一的。”此外,大部分泥板并不完整,多数是破损或者破碎的。边缘通常已经碎裂,留下一些没有开头Huò结尾或者叙事有缺失的故事。

  希门尼斯说,把这些碎片拼凑起来就像是拼很多很多块复杂拼图,这些拼图杂乱无序,盒子上也没有图片告诉你最终要拼成什Yāo样子。此外,同一KuàiNì板的碎片还可能散落在世界各地。把这些拼图重新Pīn凑起来是一个依靠运气和记忆的艰苦过程。但现在有了计算机的参与,情况正在发生Biàn化。

  作为电子巴比伦文学项目的组成部分,希门尼斯Zài2018年设立了一个语料库,通过判断出哪些碎片是一起的,这个Yù料库正利用人工智Néng重组以楔形文字书写的伟大馆藏。为做到这一点,希门尼斯正在利用为比较不同基因序列变体而开发出De算法,这依据De是同一篇Wén本往往有多个差别很小的书写版本。Rén工智能可以接受对这些Wén本进行音译的训练,楔形文字Fú号可以根据其发音方式以拉Zhēng字母形式书写出来(像汉字可以以拼音形式书写Nèi样)。然后,人工智能可以预测哪些楔形符号可能出现在缺失的部Fèn。它还可以在一个巨大的碎片数据库中搜索特定的楔形文字符号。

  2019年,这种方法帮助找到Liǎo《吉尔伽美什史诗》中的若干缺失部分,并揭示了一种古代文学的新体裁:一种由荒诞故事组成的文本,它是学生用来学习书写的。

  去年,在世界首例使用人工智能技术完全自主进行的楔形文字碎片识别中,著名的《咏正直受Nuó者的诗》的一个Quē失部分被找到。希门尼斯说:“人类原本会错过它。”

  2021年,耶路撒冷希伯来大学的计算机科学家加布里āi尔·斯塔诺夫斯基和他的同事们,找Dào了一种方法来Yù测碎片缺失部分上的文字,Zhè种方式类似于手机上词语的自动预测。他们使用了一款深度学习人工智能技术,“投喂”给它来自1万块以阿卡德语书写的楔形文字Nì板的音译文本。他们发现,Rén工智能能够以89%的准确率来提Chū符合上下文的字词建议,以填补缺失部分。

  连接现代语言

  人工Zhì能的另一个潜在应用是确定来源不明泥板的年代。斯塔诺夫斯基说:“Rú果我们知道某些文件的年代,Wǒ们就可以对算法进行训练,以预测其他文件缺失的年代。”

  通过音译破译楔形文Zì是一回事,阅读楔形文字符号则完全是另一回事。楔形文字的字母系统随Shí间推移发生了演变,而且拼写也有Hěn大差Yì。此外,这套字母系统Zài不同Shí期用于不同的语言。

  尽管如此,计算机开始在利用用于文本识别的计算机视觉系Tǒng阅读楔形文字符号方面取得进展。

  人们希望最终将符号识别Xì统Yǔ现代语言翻译系Tǒng联系起来。这将意味Zhuó我们可以在博物馆里用手机拍下一块泥板的照片,然后泥板上的内容就能立即得到解读。

  如果没有庞大的文本数字数据库提供尽可能多的数据来对算法进行训练,这些努力就都不可能实现。然而,在全世界博物馆收藏的50万份楔形文字Wén本中,只有一半Děi到了音译或翻译,只有约10万份Yǐ数字方式可用。目前,楔形文字数字图书馆倡议和电子巴比伦文学项目等努力正在取得重大进Zhǎn,以增加这些数字档案。

  这一过程Shǐ于一项艰苦工Zuò,那就是为全世界博物馆和私人收藏的所有泥板拍摄高质量图像。这正是不列颠博物馆Lǐ在我背Hòu正在进行的事情。

  在我结束对不列Diān博物馆那个拱形图书馆的参观,随人群一同涌XiàngGè个展览的时候,我一直在回味刚刚的体验——穿越时空回到过去,见证数千年前人们写下来的想法,然后又回到未来,看看这些破碎的古代文字记录,它们正处于重新拼凑和解码的过程中——这次是在数字领Yù。

  32

  图说:英国《新科学家》周刊8月6日一期封面