ScanSnapとAcrobatの使用レポート

ドキュメントスキャナで書籍を検索可能なPDFに変換しようとしている。

ScanSnapAcrobatの使用レポート」っていうかScanSnapの画質とAcrobatの「ファイルサイズを縮小」って機能が品質とファイルサイズのトレードオフを考えてどの辺に落とし所があるのかなっていうのを考えてみたのだ。





■実験1■
テストに使った媒体 : SoftwareDesign1997年12月号 246ページ 
ScanSnapS1500でスキャン。
読取り方式 全て自動 (だいたい カラー1割 グレー8割 白黒1割 くらいで取込まれた)
出力されたPDFのファイルサイズは 66,100KBになった。

そして出来あがったPDFを、Acrobat9.0 Standard の 文書 -> ファイルサイズを縮小...より、「Acrobat4.0およびそれ以降」を選択してファイルサイズの変化を確認してゆく。


<結果>
オリジナルPDF->Acrobat4.0およびそれ以降 ファイルサイズ 66,100KB -> 66,188KB (むしろ増えた)

以下同様に、ファイルサイズを縮小...より、

Acrobat4.0(66,188KB)->Acrobat5.0およびそれ以降 66,188KB (変化なし)
Acrobat5.0(66,188KB)->Acrobat6.0およびそれ以降 36,094KB 時間がかかる。JPEG画像を圧縮している様子。

ちなみに、オリジナルPDFからAcrobat6.0およびそれ以降に変換するとどうなるのかというと、、、

オリジナルPDF(66,100KB)->Acrobat6.0およびそれ以降 36,094KB
5.0->6.0とサイズに違いなかった。5.0->6.0の時ど同様に時間も掛かった。

以下同様に、コンバートしてみると、、、
6.0->7.0 (変化なし 36,094KBのまま)
7.0->8.0 (変化なし 36,094KBのまま)
8.0->9.0 (変化なし 36,094KBのまま)



思ったこと。

・縮小はAcrobat6.0以降から9.0以降までどれを選択してもファイルサイズは同じであるからどうせならば互換性範囲の広い6.0以降を選んでおいた方が良さそう。

・スキャナーの自動選択機能を使ってカラーじゃないページを「グレー」と判定するか「白黒」と判定するかでサイズは大きく異なる。もちろん「白黒」の方がファイルサイズの節約になる。

・今回、「グレー」は縮小後画質が劣化(※1)したが「白黒」は変化が無かった。ドキュメントスキャナーを使って単に検索可能なPDFを作成するのが目的ならば、なるべく、カラーじゃないページは「白黒」で読ませた方が良さそうなんだけど、ScanSnapのモード自動選択のときうまくやる方法はあるのかな? ScanSnap側にモードを白黒にするかグレーにするかの閾値を変更する機能があったらいいんだけど。


※1
「Acrobat6.0およびそれ以降」で圧縮した画像の比較。(サイズB5、倍率200%)

グレーページ縮小前


グレーページ縮小後 

「白黒」ページはコンバートされていないみたいでこのような劣化は無い。



■実験2■
1ページ 
わりと小さめの字の部分

B5 2ページ 
白黒+ノーマル 127KB
白黒+ノーマル文字くっきり 124KB
白黒+ファイン 183KB
白黒+スーパーファイン 333KB

グレー+ノーマル 370KB +文字くっきり 412KB
グレー+ファイン 589KB +文字くっきり 643KB
グレー+スーパーファイン 1050KB +文字くっきり 1147KB


思ったこと。

・文字くっきりモードはグレーの時には効果があると思ったが白黒の場合はかえって見づらくなった。
・白黒スーパーファインでは雑誌の中の最小サイズの文字も識別可能な満足のゆく精度。だけど、モノクロ+ノーマルよりもサイズ小さい。

・白黒スーパーファインを「Acrobat6.0およびそれ以降」モードで縮小すると333KB->75KBまで小さくなる。300%まで拡大すれば若干粗くなっているのが確認できるが、依然として雑誌中の最小サイズの文字まで読める水準。カラーでなくてもよい文書であればサイズと画質のトレードオフを考え、白黒スーパーファイン+Acrobat6.0およびそれ以降で縮小が許容できる選択肢かな。

ちなみにここでも「Acrobat6.0およびそれ以降で縮小」でも「Acrobat7.0およびそれ以降で縮小」でも「Acrobat8.0およびそれ以降で縮小」でも「Acrobat9.0およびそれ以降で縮小」でもファイルサイズに変更は無いので互換性範囲の広い6.0を選んでおくと良いんだろう。



■サンプル画像■

・1ページ全景↓


・白黒+ノーマル↓


・白黒+ノーマル+文字くっきり↓


・白黒ファイン↓


・白黒スーパーファイン↓


・白黒スーパーファイン+6.0縮小↓


・グレーノーマル↓


・グレーファイン↓


・グレースーパーファイン↓


・グレースーパーファイン文字くっきり↓






さっきまでこんなしち面倒臭いテストをしてきて本当に良かったと思った。


白黒+スーパーファインでスキャンしたものを 「Acrobat6.0およびそれ以降で縮小」とすると、333KB->75KB

しかし、

白黒+ファインでスキャンしたものを「Acrobat6.0およびそれ以降で縮小」 183KB->100KB

なんとファインでは縮小がいまいちでスーパーファインの方が縮小後のサイズにおいて有利だったのである。

盲点だったぜぇ。(取込まれたデータによって結果は異なるから一概には言えないんだろうけどね)

スーパーファインよりもファインの方がフォントの輪郭が粗くなるというか線の表現が複雑になっているから圧縮が掛かりにくいってことなのかな。。。

するってことは、白黒スーパーファインも白黒ファインもスキャン速度に大差が無いのだったら白黒スーパーファインで読んだものを後ほど縮小するってやり方が良いということになる。

もちろん縮小後だって元がスーパーファインで取込んだものの方が小さな字だって読みやすいから良いことづくめではないか。