普段本を読んでいて、これはすごく良い文章だと思って残して起きたい事ないですか?
僕だけですか。そうですか。
せっかく先人たちが素晴らしい示唆に富んだ文章を残してくれているのに、何度も読み返して自分のものにしないのはもったいない。
と言うことで出来る限り楽して、本の文章を残す方法を検討したいと思います。
まず用意するのは、エバーノートのアカウント。
でここが注意点なのですが、なんと
エバーノートはデフォルトでは日本語のOCRが有効になっていません!
これ、やるまで気づいていなかった。
どうも精度悪いなくらいにしか考えてなかった。
まずエバーノートのヘルプからアカウント情報をクリックして、エバーノートのWeb画面に飛びます。
Web画面で、個人設定をクリック。
デフォルトでは、英語表示ですので、personal settings。
で、表示を日本語にして、読み取りを日本語+英語にします。
これで、ocrが日本語に対応します。
昔の画像は、どうなのでしょう?
僕の環境では今のところダメみたい。
そのうち走るのかな。
次に、iPhoneのpardNoteあたりを用意します。
本の引用したい部分をカメラでパシャとして、エバーノートにアップ。
5分くらいでMacにも同期出来ますよ。
で、同期したノートをクリック。
エクスポートでノートをエクスポート。
名前はなんでもいいです。
xmlで書かれていますので、sublime text2で開いて、整形。
recognitionあたりまでは、画像をbase64にしたりしている部分なので削除。
miあたりにコピーして、タグを正規表現で消す。
「検索」から「検索・置換」を選択。
正規表現
<("[^"]*"|'[^']*'|[^'">])*>を記載。して、正規表現検索して空白に変換。
これで、文章が取り出せます。
取り出してみた文章。
仕事のプロセスはどれくらい効果的か、 仕事のブロセスはどれくらい効果的か、 佐事のプロセスはどれくらい効果的か、 仕事のプロセスはどれくらい効果的が、 仕事のプロセスほどれくらい効果的か、 仕事のプロセスばどれくらい効果的か、 位事のプロセスはどれくらい効果的か、 仕事のプロセスはどれくらい効果約か、 仕事のプロセスはどれくらい効果向か、 仕事のプロセスぱどれくらい効果的か、 プロセスはどれくらい効果的[FI プロセスはどれくらい効果的勢FI プロセスはどれくらい効果的[fl プロセスはどれくらい効果的かai プロセスはどれくらい#11
よくわからない文章ですが、どうやらEvernoteは可能性のある文字はすべてタグづけするようですね。
確かに検索のために使うならば、それが正解。
完全に日本語の文章としてそのままコピー&ペーストするレベルにはほど遠いですが、どっちみち現時点完璧なOCRはないかと思いますので、ひとまず無料でやってみてはいかがでしょうか?
日本語って難しいですね。
以上です。
2013/5/29 追記
Evernoteを使わなくても簡単にOCRして本の引用ができるアプリがありました。【iPhone】ついに長年の夢が叶った!iPhoneで本の重要箇所が抜き出せる最強!日本語OCR『Snap2PDF』
有料ですがこちらを使えば、ちょー簡単に日本語の本から文章が抜き出せます。
Snap2PDF - スキャンドキュメント&シェア・サーチャブルPDF(Version 3.1.3)
価格:¥250(最新価格はStoreで確認してください)
カテゴリ:ビジネス
評価: (4.5 / 661件の評価)