紙の書籍をデジタル化する「自炊」のノウハウ

ブログ
電子書籍
約4100字

数年ほど前に、iPadやドキュメントスキャナーといったハードウェアの登場で、書籍を自分で裁断・スキャンしてデジタル化する「自炊」と呼ばれる行為が生まれた。

本や漫画を頻繁に買い、捨てたくないけど置き場所もないという人にとって、本の自炊はかなりメリットがあることだと思う。今まで800冊以上の本をデータ化できたおかげで、いつでも大量の本を手元のiPadで探すことができるし、OCRで全文検索をかけることもできる。

自炊するにはそれなりに時間とお金の投資が必要で、裁断やスキャンが面倒くさくもある。それでもメリットはかなり大きい。

必要機材

本を自炊するためにはどうしても機材が必要になる。裁断器なしでは本をバラせないし、ドキュメントスキャナでなければ現実的な作業時間で本をデータ化できない。

裁断器は切れれば何でも良く、ドキュメントスキャナはScanSnapS1500があれば必要十分である。

ScanSnapS1500(ドキュメントスキャナ)

自炊カルチャーの起爆剤とも言えるScanSnapS1500は、中古価格が大分こなれてきている。長年使っているが特に不満なく使い続けることができている。

消耗品

何十冊もスキャンしている消耗品の交換は必須となる。たまに在庫が切れているのでパッドユニットピックローラユニットは念の為揃えておきたい。

ガラス面の汚れ

スキャンを続けているとガラス面に紙カスがこびりついたりして、スキャン結果に青いシマが出きたりする。これを気付かずにスキャンを続けると作業がやり直しになったり、ひどいと気付いたころには原本を捨ててしまっているので、こまめに拭くと良い。

メーカー不明の大型裁断器

「裁断器」ググるとよく出てくるこの型のものを使用している。おそらく中国製。安物なので精度はイマイチでズレやすいが、慣れると思い通りの位置で裁断できるようになる。

この製品に限らず、大型裁断器はかなり重く、半畳ほどのスペースを消費する。形状的にも積み重ねが効かないので、自炊によって節約できるスペースが裁断器のサイズに見当っているか、購入前に検討するべきかも。

替刃のサイクルはかなり長い

4年以上にかけて800冊以上を裁断したが、まだ替刃が必要なほど刃は減っていないように思う。

安全上の注意

ハードカバーの背も断裁できる刃がむきだしなので、怪我をしないようにしたい。小さな子どものいる家庭で使うのであれば、もっと高額な日本製の製品の方が安全性は高そう。

データストレージ

参考までに、八百数十冊で40GB程度のデータ容量になっている。これはClearScanによる圧縮を積極的に行った上での容量なので、非圧縮では2割から3割増し程度になるかもしれない。

データ容量だけで言えばそれほど困るサイズではないが、情報の資産価値が高い(本を買うのにも、本を電子化するのにもコストをかけている)ので、それなりに冗長化へ力を入れたい。

筆者の場合は、通常運用のHDDに加えて、RAID1で冗長化したバックアップデータと、クラウドバックアップサービスの「Backblaze」を併用している。(参考: 本当に容量無制限? BackblazeとZipCloudの違い)

ワークフロー

完璧さにこだわればこだわるほど電子化にかかる時間的コストが嵩むので、自分が許容できるレベルで妥協した方が効率は上がる。

本のカバー・ソデ・オビの完全再現は諦める

ドキュメントスキャナを使った作業では、特にカバーとソデ(カバーのかえしの部分)、オビの部分の作業が面倒になる。ScanSnap本体のボタンを長押しすると長い原稿を巻物のようにスキャンできるが、それではひと繋がりの画像になってしまうので、Photoshopなどで分断する作業が発生する。事前に分断するのであれば、ハサミで切らなければならないが、手作業なので位置の調整は適当になってしまう。

また、オビなし・オビつきの両方のパターンのデザインを自炊したいのであれば、両方をスキャンした上で、PC上で重ね合わせるなどの合成処理をしないと難しい。

現実的には、何十冊もスキャン作業をしなければならない中では無理がある。

媒体にマッチした保存形式でルールを決める

漫画はほとんどが画像でOCRをかける意味合いも低いため、JPEG画像をzipにまとめた形式で保存している。それ以外の媒体はPDFで保存している。

紙の薄い本は一回あたりの量を少なくする

雑誌や文庫小説などの紙の厚みが薄かった原稿の場合、紙の重送が格段に発生しやすくなる。こういったScanSnapが苦手な紙質のものは、20枚程度の少ない単位でスキャン作業を行った方が結果的には速い印象がある。

おすすめ無料ソフト

ScanSnapの付属ドライバ

ScanSnapの付属ソフトの画面が表示されている。

OSX版の感想となるが、UIが使いやすく、機能にも申し分ない。読み込みプリセットを複数作成でき、たとえば「漫画をスキャンする時は1枚ずづJPEGで保存」とか、「雑誌をスキャンする時はPDFにまとめて圧縮率低めに保存」とかの設定を作成し、手軽に切り替えて運用できる。OCR機能も付いているので、とりあえずこれがあれば自炊はできる。

ScanSnapのプリセット例が表示されている。'

プリセットを用意し、原稿に応じて適宜切り替えて運用すると便利

インストール

スキャナ ScanSnap : ドライバダウンロード : 富士通

Stackroom

Stackroomのスクリーンショットが表示されている。

Mac OS XでPDFやZipにまとめた書籍/漫画を管理するのであれば、これほど適したツールは他にないのではないかと思う。iTunesのようなUIでPDFやZipファイルを管理できて、必要十分なメタデータも設定できる。

iTunesとは違い、データをライブラリフォルダにコピーして管理するのではなく、エイリアスで間接的に管理する仕組みになっている。そのため、ファイルの置き場所に制約がなく、登録後にファイルを動かしてもそれなりに追従してくれる。

作者が日本人で、ずいぶん前に2ちゃんねるで生まれた経緯がある。長い間アップデートされていないが、今だにEL Captainでちゃんと動いているのがすごい。

インストール

aroma氏のブログから入手できる。

Gatekeeperを回避するにはmacOS SierraでGatekeeper非対応アプリを実行する2つの方法 | ソフトアンテナブログなどを参照。

SimpleComic

意外と、日本の右綴じの書籍にも対応したビューアは少ない。筆者はSimpleComicという見開きで画像を表示しながら、右綴じと左綴じの両方に対応したビューアを使っている。PDFとZipの両方に対応している。

インストール

Dancing Tortoise | Simple Comicから入手するか、homebrew-caskでもインストールできる。
brew cask install techstoreclub-simple-comic

imageOptim

Web制作などで定番の、画像を劣化させることなく容量削減できるツール。漫画のJPEG画像は、Zipへ固める前に少しでも容量を削っておくとチリツモで結構な容量節約になる。

インストール

ImageOptim — better Save For Webから入手するか、homebrew-caskでもインストールできる。 brew cask install imageoptim

ClearScan

AcrobatProによる特殊なOCR処理

電子化するメリットの1つに、OCRがある。OCRとは、画像の中にある文字を認識して、テキストデータとして認識できるようにする技術のことだ。これを使うと、画像データに対してテキスト検索をかけられるようになる。

ScanSnapのドライバにもOCRの機能があるが、AcrobatProにはClearScanという更に強力な機能がある。ClearScanを使うと、文字認識をした上に、文字のベクター化も同時に行ってくれる。文字が綺麗になった上、大幅に容量を削減できる機能なので是非活用したい。これができるソフトは他にない為、OCRをかけるならAcrobatProは必須と言える。

Retina端末の場合、OCRでClearScanを使っていたときの見栄えが非常に良い。

ScanSnapの読み込み設定は「白黒」が向いている

文庫本などの文字中心の書籍は、特にClearScanとの相性が良い。このとき、原本が古くて紙が黄ばんでいたりすると、ScanSnapがカラー原稿と誤認識して読み込んでしまう場合がある。ClearScanはカラーよりもグレースケール、グレースケールよりも白黒の時に効果が際立つので、文庫本のスキャン時は、あらかじめて設定を「白黒」に固定しておくとClearScanの効果向上が期待できる。

ClearScanの処理は重い

ClearScanは非常に重い処理で、最新のPCを使ってもそんなに早くならない。文字ばかりの本を数十冊まとめて処理するには、昔の動画エンコみたいに寝る前に回しておくなどの工夫が必要になる。

ClearScanの処理はよく止まる

さらに言うと、ClearScanは結構な頻度で止まる。感覚的には、自炊した本の2000ページに1度くらい、Acrobatに解析できないページが含まれている。そのページに当たってしまった場合は手動でそのページを飛ばすように処理をやり直さなければならない。

モバイル環境

iPad

初代iPad→iPad2→iPad mini→iPad mini4と使ってきたが、重いPDFをようやく快適に読めるようになったのはiPad mini4から。iPad miniのスペックだと、我慢できる程度に重くなる時はあった。

常時書籍を持ち歩くのであれば、容量は最低でも64GB、できれば128GB欲しい。

i文庫HD

iPadで蔵書を管理するソフトは結局これに落ち着いた。PCとの同期にFTP・SMB・WebDAVを使えるので、ファイルサーバとの連携もしやすい。各種クラウドストレージにも対応している。

ComicShare

PDFやZipのストリーミングに対応した電子書籍ビューア。ストリーミングなので、端末側の容量が少なくても閲覧ができる。ただし、ネットワーク上にサーバが見える環境でしかストリーミング閲覧はできない。FTP・SMB・SCP・WebDAVに対応している。ベッドサイドで容量の小さいiPhoneでちょっと読んでみたい時に役立つ。

※投稿内容は私個人の意見であり、所属企業・部門見解を代表するものではありません。