Library and Information Science

Library and Information Science ISSN: 2435-8495
三田図書館・情報学会 Mita Society for Library and Information Science
〒108‒8345 東京都港区三田2‒15‒45 慶應義塾大学文学部図書館・情報学専攻内 c/o Keio University, 2-15-45 Mita, Minato-ku, Tokyo 108-8345, Japan
http://www.mslis.jp/ E-mail:mita-slis@ml.keio.jp
Library and Information Science 61: 1-23 (2009)
doi:10.46895/lis.61.1

原著論文Original Article

文書クラスタリングによる未解読文書の解読可能性の判定ヴォイニッチ写本の事例Determining the possibility of deciphering an unintelligible text by text clustering: The case of the Voynich Manuscript

1亜細亜大学Asia University ◇ 東京都武蔵野市境5-24-10 ◇ Sakai 5-24-10, Musashino, Tokyo 180-8629, Japan

2慶應義塾大学Keio University ◇ 〒108-8345 東京都港区三田二丁目15番45号 ◇ Mita 2-15-45, Minato-ku, Tokyo 108-8345, Japan

受付日:2008年3月12日Received: March 12, 2008
受理日:2009年4月19日Accepted: April 19, 2009
発行日:2009年6月30日Published: June 30, 2009
PDF

【目的】未解読文書に関する研究は,文書内容の解読に焦点を当てたものが多い。しかし,長年にわたって解読不能である文書は,何らかの意図で作成された意味をなさない「捏造文書」であり,そもそも解読自体ができない可能性もありうる。本研究の目的は,文書構造の有無から解読可能性そのものを判定する手法を提案することである。

【方法】既存の多くの言語に応用可能なテキスト処理技術は未解読文書に対しても有効であるという前提に基づき,未解読文書の部分文書同士の類似度をクラスタリング手法によって分析することにより,首尾一貫した文書構造の有無を検証する。次に,本書構造と,図表やページ順など他の手がかりから導かれる構造との対応関係を比較・分析することによって,「捏造文書」を判定する。

【結果】提案手法を用いて有名な未解読文書であるヴォイニッチ写本を分析した結果,本文の構造と挿図・ページから推測される構造が一致することが明らかになった。つまり,ヴォイニッチ写本は一貫性のある構造を持つ文書であり「捏造文書」ではない可能性が高いと判定できる。実験により,提案手法の適用可能性を示すことができた。

Purpose: One of the most common approaches to understanding an undeciphered text is to identify and then decipher the underlying code. If a document remains unintelligible or undeciphered for a long period of time even after many attempts at decoding it, the possibility of it being “gibberish” must be considered. This study proposes a method to detect the existence, or non-existence, of a coherent structure within a previously non-translated text in order to determine the possibility of deciphering it.

Methods: The present method begins with the assumption that natural languageprocessing methods that are commonly employed in analyzing known languages can be applied to an undeciphered text. To detect a coherent structure in a text, the similarity of every pair of partial document is measured, and then the similarity matrix is analyzed by clustering methods. The next step is to compare the detected structure with the sections suggested by other clues such as illustrations and the page order. Thus, it is determined whether an undeciphered text contains an identifiable structure which corresponds to the latter, or whether it is “gibberish” containing no order or structure.

Results: We applied the proposed method to the Voynich Manuscript, which is a renowned undeciphered text. The results clearly demonstrate that the text of the Voynich Manuscript possesses an identifiable structure, and that the structure corresponds to the existing sections of the manuscript suggested by the accompanying illustrations. Thus, the results strongly suggest that the Voynich Manuscript is not “gibberish”; additional attempts to decipher its contents would be justified. The present experiment proves the usefulness of applying this method to a previously non-deciphered text.

This page was created on 2021-01-14T11:05:59.333+09:00
This page was last modified on


このサイトは(株)国際文献社によって運用されています。