フラクトゥール光学文字認識(OCR)

中世ヨーロッパで使われていた、フラクトゥール(Fraktur)という書体があります。ドイツ語圏ではさらに第二次世界大戦ごろまで使われていたため、少し古い文献でも使われている書体です。

この書体、雰囲気はよいのですが、とにかく読みにくいのですよね。慣れればある程度は読めるようにはなるのですが、やはり読みにくい!

私の場合、とくに過去の文献を読むような仕事も趣味もないですし、フラクトゥールを読む機会は滅多にないのですが、ワイマール共和政時代の足踏み式ミシンを持っています。

このミシンの説明書がこれです。中を開けるとフラクトゥールです…。

ミシンもたまにしか使わないので、使うたびに説明書を見て確認したくなるのですが、これがなかなかハードルが高い。読むのにやたら時間がかかります。これではやってられないので、説明書を普通の書体に書き換えたくなりました。

さて、前置きが長くなりましたが、そんな経緯で説明書を書き換える方法を探した結果、フラクトゥール書体を自動文字認識(OCR)できる方法をいくつか見つけたので紹介します!

ABBYYソフトウエア版

まずはこちら、ABBYY Recognition Server mit Fraktur OCR。ソフトウエアをPCにインストールし、ライセンスを購入して使うタイプです。読み込むページ数をライセンスとして購入する形です。お値段は以下の通り。

これは大量に資料を読まないといけない研究者の方などにはよいのかもしれませんね。私はタダで読み込む可能性を探っているので試していませんが、質はよさそうです。

https://www.frakturschrift.com/de:start

ABBYYオンライン版

フラクトゥールの文章を少しだけ変換して読みたいときに、上のソフトウエアはハードルが高すぎますが、無料でも使えるものもあります。同じ系列のエンジンを使ったABBYY FineReader Onlineというものがそれ。

月に5ページまでなら無料(登録直後は10ページ)、5000ページまで129ユーロ/年というライセンスです。

実際に試してみることにします。

まずはアカウントを登録します。その後、OCRしたいPDFファイルをアップロードし、言語で「German (Fraktur font)」を選びます。出力形式は私はWordを選択しました。

あっという間に変換され、出てきた結果が以下(タイトル画像の部分です)。修正しないといけない箇所もありますが、悪くないです!

ページごとに用紙サイズや余白の設定が異なりますが、元画像に合わせて納めてくれているので分かりやすいです。最終的には別のドキュメントを作成することになるでしょうし、出力結果はこれでよいなと思いました。

ただ、とりあえず10ページ分を変換しましたが、スキャンして取り込んだ説明書はPDFで22ページあるのですよね…。質には満足ですが、続きは来月まで待たないといけません…。無料では変換できるページ数が限定されているのが難点ですね。

https://finereaderonline.com/en-us/Tasks/Create

Tesseract+gImageReader

オープンソースで開発されているOCRエンジンのTesseractに、フロントエンドを組み合わせる方法です。私はフロントエンドにはよく使われているらしいgImageReaderを使ってみました。

インストールと設定は、PCにある程度詳しい人でないと難しいかもしれません。インストール方法などはほかを参照していただくことにして、ここでは紹介しません。

プログラムを実行すると下のような画面が出てきます。

左側のSourcesで元画像またはPDFを読み込み、上のタブでFrakturを選択して変換スタート。変換結果はPlain text、odt、PDFでエクスポートできます。右上のOutputウインドウに単語ごとの変換結果が出てくるので、ここで結果を修正してから出力することも可能。

修正をせずにPDF出力した結果がこちら。印刷やスキャンの質の問題もあるでしょうが、けっこう間違いがありますね…。

質はABBYY FineReader Onlineの方が圧倒的によさそうです。それでも無料で無制限に変換ができるのはメリットですね。

インストールと設定の仕方については、日本語では以下の情報が参考になるかもしれません。日本語横書き・縦書きと同様にフラクトゥールを追加すれば大丈夫です。

Ubuntu Weekly Recipe – 第577回 Tesseract OCRで文字認識をする

Tesseract OCRを試用

Googleドライブ

…と、ここまで書いたところで、ほかにも方法があるのではないかと調べてみました。「OneNote for Windows 10のOCR機能がけっこう使えるらしい」という情報がありましたが、試していません。フラクトゥールを読み取れるかも不明です。

そして、さらに見つけたのが「GoogleドライブにOCR機能がある」というもの。こちらは試してみることにします。方法はいたって簡単。

  • Googleドライブに画像をアップ
  • 右クリックから「アプリで開く>Googleドキュメント」を選択

これだけです。

まずは、この記事のタイトル画像を試しにアップロードしてみたところ、少し待つだけで変換されたドキュメントが開きました!

若干、間違いがあるものの、問題なく変換できています!!!今までの努力は何だったのかというアホらしさです(笑)

正答率は数えてはいませんが、ABBYY FineReader Onlineと同格でしょうか。

ただ、PDFをまるごと変換してみたところ、こうなりました。フラクトゥールとは認識してくれなかったようです。元は同じ画像なのですけどね…。

今手元にあるフラクトゥールのデータがこれだけなので試せませんが、もしかしたら現状では画像でのみ変換が可能なのかもしれません。もし、PDFで変換ができたら、無料のGoogleドライブが最強です!

今後、ほかのデータでも試してみますね。みなさんもぜひお試しください!




4 Comments

  1. かなり画期的な企画ですね!この手の「パッと見は何の役にも立ちそうにない企画」、個人的には好物です。

    • ありがとうございます!こういうのは面白いですよね。まあ、役に立つ記事ももっと書きたいのですけどね…笑

    • ありがとうございます。私も気に入ってるミシンです。ただ、普段は棚の中に収納できるので、その上には風情も何もないテレビが鎮座しています…!

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください