:::
2020/10/13 15:31

即時文教

150萬字形一次蒐齊 東亞最大規模文字圖像庫上線
中研院「歷史文字資料庫統合檢索系統」今(13)日上線啟用,150萬字形一次蒐齊 。(中研院提供)

記者黃朝琴/臺北報導

 中研院與日本5大學研機構合作建置「歷史文字資料庫統合檢索系統」今(13)日正式上線啟用,這是東亞最大規模文字圖像資料庫,目前整合5個資料庫,150萬個字形一次蒐齊,使用者透過單一入口網即可跨國、跨機構檢索,橫跨千年的高解度文字圖像,均依創用CC條款釋出,可免費下載,進行加值利用。

 中研院表示,該院歷史語言研究所與數位文化中心今年建置「歷史文字資料庫統合檢索系統」,目前系統整合的5個資料庫約有150萬件高解析度文字圖像,包含源自中國大陸與日本的簡牘與紙本、文書與典籍、抄本與刻本等紀元前至19世紀的文字圖像數位資源。

 計畫主持人、中研院史語所劉欣寧助研究員表示,此檢索系統是文字圖像典藏機構間首次創新合作模式,這次系統的公開上線只是起點,未來將持續號召其他典藏機構加入,並嘗試深化技術;期許在文字圖像資源共享的理念下,突破時空的限制,重現東亞漢字文化圈的源流與歷史脈絡。

 中研院數位文化中心執行秘書陳淑君表示,此次與日本學研機構共同確立文字圖像數位資源共享與流通的體制,議定一致的國際圖像互通架構(International

Image Interoperability Framework, IIIF)規範,以供多方共同遵循,如此一來,便可從彼此的資料庫中檢索出指定的單字圖像。

 中研院表示,近年開放資料概念的標準化影響數位典藏的發展,自1990年代史語所開始進行簡牘影像及釋文數位化工作,2002年起參與數位典藏國家型科技計畫。為了探究以簡牘為主題的開放性資料庫架構,2019年起史語所與數位文化中心導入IIIF規範,結合鏈結開放資料(Linked Open Data, LOD)等技術,開發「簡牘字典—史語所藏居延漢簡資料庫」。

 中研院進一步說明,在上述資料庫中發展出強大的圖像縮放瀏覽、提取單字字形、圖像比較、標註功能,改善簡牘研究的工具,更建構史語所藏漢簡圖像、後設資料的開放共享環境,更成為此次跨國合作「歷史文字資料庫統合檢索系統」的重要基礎。

:::

PDF電子報紙