視点
アマゾン書籍全文検索の実力
2005/11/21 16:41
週刊BCN 2005年11月21日vol.1114掲載
「なか見!検索」と名付けられたこのシステムは、米アマゾンが、2003年10月から行ってきた「Search Inside the Book(サーチインサイドザブック)」の日本語版である。スタート時点でカバーできたのは、許諾を得られた約280社の13万冊分。従来からあるトップページの検索窓で「和書」を選び、思いつくキーワードを入れると、書名、著者名のみを対象とした検索結果に加えて、本文の検索結果が出てくる。ヒットすると、キーワードを含む短い一節が添えられる。アマゾンで何か買ったことがある人なら、さらにキーワードの現れる箇所の前後5ページ分を画像データで読める。
OCRの読み取りには、形の似通った文字への入れ替わりが付き物だ。引用箇所を読んでも、間違いの起こりそうなものを狙って検索してみても、この手の誤植が検索対象中に溢れ返っているのがわかる。
「祇園」に関する書籍では、肝心のこの文字を正しく読みとった73か所に対して、「砥園」と誤ったのが129か所。情報科学の入門書では、「コンピュータ」が16か所に対して、「ン」を「ソ」と取り違えた「コソピュータ」が105か所。漢字を片仮名に入れ替えた「タ暮れ」、片仮名を記号に変えた「□シア」、漢字に変えた「口シア」でもヒットするし、「シ」が「ン」に化けた「ンルクロード」や「ンナジー」でも検索結果が得られる。「コンパイラ」は難物らしく、読み取り結果は「コン,マイラ」「コン’マイラ」「コン/マイラ」と多様だ。
人が読むためのテキストとしてなら、「なか見!検索」のデータは失格だ。だが、キーワード検索なら、これでもとりあえず役に立つ。さまざまな角度から類書をリストアップできる新しい世界が、この程度のデータから開ける。まずははじめること。コスト削減のために、見切りを求められることの多いプロジェクトだろうが、改善のために打てる手は確実にある。
- 1