« 2013年11月 | トップページ | 2014年1月 »

2013年12月

2013年12月28日 (土)

djvu(デジャブ、pdfの対抗馬?)とは何か?(Mon May 27, 2013)

djvu(デジャブ、pdfの対抗馬?)とは何か?(Mon May 27, 2013)

Time-stamp: "Tue May 28 15:30:09 JST 2013"

旧井笠鉄道の矢掛(やかげ、ヤガケではない)線の毎戸(まいど)駅のあった場 所を地図上で確認したい。いままでに、井原線まちおこしネットの井笠鉄道 矢掛線跡ウォークに二回参加している。一回目は旧駅の名前と辺りの様子を 憶えた。二回目になると、ここらアタリと見覚えがある。それでも帰宅して からパソコンの地図を眺めても、この辺りと特定できない。

地図を見ると毎戸の名前のバス停留所とか毎戸公民館がある。バス停は旧毎 戸駅の近くにつくられたであろうから、この付近であることは間違いない。 現場の写真を載せているページは多くあるけれど具体的な場所については何 も書かれていない。近くにある目印となる建物とかの記述もない。

旧井笠鉄道の軌道敷を拡張して現在の井原鉄道になっている部分が多い。旧 毎戸駅跡の井原鉄道線は盛り土の上ではなく、橋の上にある。その橋も橋下 が大人の身長くらいしかない。橋の下を人や自動車が通るようには出来てい ない。本来なら盛り土にするところを何かの都合があって無理矢理に橋を架 けたという風である。一回目のウォークのとき、ここには毎戸遺跡があった ために鉄道工事が遅れたと聞く。とりあえず橋脚になるところの周辺だけを 取り急ぎ発掘したのかもしれない。

そこでインターネットで毎戸遺跡を検索すると次が見つかった。やっぱり地 元の情報は地元にある(灯台下暗し)。

拡張子が「.djvu」のファイルは、常用としているブラウザのfirefoxでは扱 えない(djvuのプラグインは入れてない)。上記の図書閲覧室にある案内には プラグインを入れるように案内がある。このファイルを見るためにだけプラ グインを入れるのは気が引ける。今後たびたび使うものになるかどうかが分 からない。

とりあえずファイルをダウンロードして、拡張子が「.djvu」のファイルを 見ることができるビューワを試してみることにする(3文字の拡張子「.djv」 の場合もある)。検索すると次が見つかる。STDU Viewerにはポータブル版が ある。また、WinDjView(1.0.3-r20)のアーカイブを解凍してみると、実行 ファイルWinDjView.exeの一個があるだけである。どちらもインストール作 業が要らない。お試し使用(試用)にはウッテツケである。

先ずは、STDU Viewerのzipファイルを解凍した中にあるSTDUViesweApp.exe を起動する。「発行元を確認できませんでした。このソフトウェアを実行し ますか?」(セキュリティの警告)には[実行]ボタンを押す。

ファイルメニューから岡山県古代吉備文化財センター図書閲覧室よりすでに ダウンロードしてある岡山県埋蔵文化財発掘調査報告5川面館遺跡、毎戸西 方遺跡、毎戸遺跡(昭和49年)のファイル0000-005-index.djvuを指定する。 残念ながら何も表示されない。サムネイルに1から75の数字が表示される。

もう一つのWinDjView.exeでも同じようである。サムネイルに1から75ページ の真っ白な紙面が表示される。STDUViesweApp.exeのファイルメニューを開 くと画像ファイルはサムネイル表示される。テキストファイルのアイコンも 表示される。テキストファイルを開くと日本語部分が欠落している。日本語 がダメなのだろうかと不安になる。とりあえず表示できるdjvuファイルを探 そうと思う。次のカタログ(日本語入り)をダウンロードして上記二つのdjvu ビューワにかけると正常に表示される。

ここで岡山県古代吉備文化財センター図書閲覧室からダウンロードしたファ イル0000-005-index.djvuのファイルサイズが224バイトしかないことをいぶ かしく思う。djvuの圧縮性能は優秀らしいが、75ページもありそうな報告書 が224バイトに圧縮できるはずがない。最初はサーバーが壊れているのでは ないかと勘ぐる。何かカラクリがあるに違いない。そこで閃いたのは、動画 のストリーミング配信に似ているのではないかということである。ファイル に書かれて(記録されて)いるのはサーバーにある実データの場所(URL?)だ けなんだろう。

ダウンロードした224バイトのファイルには報告書のデータは含まれていな い。サーバー上の、このファイルにアクセスがあったらサーバーシステムは おもむろに本体のデータを送り出してくる。例えるならば、224バイトの ファイルとは、ファックスの受信当初のピーギャラギャラ音(ファックス機 どうしのネゴシエーション)のようなものである。データ本体はFAXの機械ど うしの打合せが終わってから送られてくるわけである。だからこそ、その作 業中はインターネットに常時接続されたブラウザのプラクインを通してでな いと見えない。

上記の図書閲覧室に登録されているdjvuファイルの殆どは数百バイトである が、報告書一覧表の末尾に[NEW]の表示の付いた最新の報告書には数(十)メ ガバイト級のものがある。それをダウンロードしたものはスタンドアロン (単体)のdjvuビューワ(前述のSTDUViesweApp.exeやWinDjView.exeなど)で表 示できる。

djvuファイルのうち数百バイト級のものは、ダウンロードしても単体の ビューワで見ることができない、言わば品物の「カタログ」だけが入った宅 配便である。カタログから希望のものを選んで葉書かインターネットで発注 (?)する。最近は慶弔の返礼に、このスタイルが多い。ファイルサイズが数 百キロバイト級なら中身が詰まった実物ファイルだろう。

わるあがきしたけれど、毎戸遺跡の報告書を見るにはブラウザにdjvuのプラ グインを入れるしかないとさとる。図書閲覧室の案内にしたがってカミノバ のプラグインを入れる。

ここからダウンロードできるプラグインはinternet explorer専用とみたほ うがよさそうである。Windows用のプラグインには「IE Edition」の文字が 入っている。firefoxでも使えるとあるけれどエラーが出て表示に致らない (いわゆるインダイレクト形のdjvuファイルで失敗する)。

ブラウザのプラグインとともに単体のDjVuViewer.exeがC:\Program Filses(x86)\Caminova\Document Express DjVu Plug-inディレクトリにイン ストールされる。これを直接に起動してもファイルを読み込むメニューがな い。ブラウザから起動する専用ビューアらしい。中身のある(バンドル形) djvuファイルを見るにはinternet Explorerのウィンドウにdjvuファイルを ドラッグアンドドロップすると見える。

なお、予めダウンロードしておいた数百バイトしかない中身が空のdjvuファ イル(インタイレクトなdjvuファイル、カタログだけの宅配便のようなもの) をinternet explorerにドラッグアンドドロップしても失敗する。サーバー サイト上にあるdjvuファイル(カタログ)をダウンロードする(配達してもら う)のではなくて直接に開くようにする。つまり、サーバーにあるカタログ (メニューだけのdjvuファイル)をオンラインで見る必要がある。

サーバーの受け付けカウンターに直接出向いて係員の目の前にあるカタログ (メニュー)を指差しで指示する。手元にある(ダウンロードした)カタログ (メニュー)を見ながら電話(インターネット)で指示することはできないので ある。ファイルサイズが数百キロバイトある(バンドルなdjvuファイル)なら ダウンロードしてから開くことができる。(この辺りの事情が飲み込めるま でには、ずいぶん悩んだ)

djvuについての情報は少ない。詳しすぎて扱い方の実際が分からない説明 か、プラグインを入れれば見ることができますよという簡単な説明しかな い。プラグインの配布元であるカミノバ(Caminova)のサイトに詳しい説明が あるけれどバンドル形とインダイレクト形の説明はない。DjVu Page Streaming Serverの説明がそれに近いような気がする。英語サイトで次の説 明を見つけた。私は、翻訳できるほどの英語力を持たない。オボロゲに分か る部分の抜き書きを次に挙げる。この内容をもつ日本語の説明は見つからな かった。

djvuのファイルにはバンドル(bundle、小包)形とインダイレクト (indirect、間接、遠回し)形の二種類があるらしい。ファイルサイズが数百 バイトのものはインダイレクト形であってオンラインのブラウザからdjvuプ ラグインを使って直接に開かないと表示されない。インダイレクト形のdjvu ファイルをダウンロードしてから開くと、内容のないページ枠だけが表示さ れる。ファイルサイズが数百キロバイト以上のバンドル形djvuならダウン ロードしてから開くことができる。

Indirect multi-page DjVu documents solve both problems. An indirect multi-page DjVu document is composed of several files. The main file is named the index file. You can browse a document using the URL of the index file, just like you do with a bundled multi-page document. The index file however is very small. It simply contains the document directory and the URLs of secondary files containing the page data. When you browse an indirect multi-page document, the browser only accesses data for the pages you are viewing. This can be done at a reasonable speed because the browser maintains a cache of pages and sometimes pre-fetches a few pages ahead of the current page. This model uses the web serving bandwidth much more effectively. It also eliminates unnecessary delays when jumping ahead to pages located anywhere in a long document. (unquoted)
As indicated above, there are two types of multi-page DjVu documents: BUNDLED and INDIRECT. In the BUNDLED format the whole document is packed in a single file. In the INDIRECT format, each page is in a separate file (generally all residing in a single directory). INDIRECT documents are accessed through a document file (or index file) that contains pointers to each individual file composing the document. The advantage of the BUNDLED format is that it is easy to manipulate (copy, rename, mail...). It is the best option for DjVu documents that are accessed on a local hard drive, or through a fast network connection. The disadvantage for web-based applications is that the pages of a BUNDLED document are downloaded sequentially, there a page cannot be viewed until all the previous pages have been downloaded. The INDIRECT format solves this problem. Because the pages of a document in the INDIRECT format are stored in separate files, they can be accessed on demand in any order, without requiring a so-called "byte server".
From the user's point of view, there is no real difference between the INDIRECT and BUNDLED models (except for the faster random page access of the INDIRECT mode). The plug-in allows to users to print, save, and search the whole document in a single operation with both models. The "save document" feature of the plug-in also allows to convert from one format to the other.
For Internet-based applications, we recommend the INDIRECT format. For Intranet or Local Area Network based applications, either the BUNDLED or INDIRECT formats can be used. (unquoted)
Bundled multi-page DjVu document uses a single file to represent the entire document. This single file contains all the pages as well as ancillary information (e.g. the page directory, data shared by several pages, thumbnails, etc.). Using a single file format is very convenient for storing documents or for sending email attachments.
Therefore any request for any page of such a file will necessarily result in the entire document being transmitted. Furthermore, a reasonable work pattern is to read the first few pages (perhaps a Table of Contents) and then navigate to a page much further into the document . However, in such a file, data for page 100 can not be viewed until after data for pages 1-99 have been downloaded.
Indirect multipage documents address these problems. Such a document is composed of several files. The main file is named the index file. You can view document using the URL of the index file, just like you do with a bundled multi-page document. However, the index file is very small. It simply contains the document directory and the URLs of secondary files containing the page data. When you view an indirect multi-page document, the viewer only needs to download the files corresponding to the pages you are viewing. (unquoted)

日本語での説明が少ないということは日本でのdjvuの普及が遅れているので あろうか。国内の古文書のアーカイブ方面では結構と見掛けるけれど一般に は使われてないようである。私も毎戸遺跡の報告書に出会うまでは、djvuに ついてまったく知らなかった。

pdfは(活字で印刷する)文字情報に重きを置いている。djvuはスキャナーか ら読み取った画像のファイルに適している。古文書のほとんどは手書きだか ら画像として処理するしかない。画像にはpdfよりdjvuのほうが適している (餅は餅屋である)。

たいていは誰でもブラウザにpdfのプラグイン(アドオン)を入れている。ブ ラウザからpdfファイルが見えることは当たり前と思っている。pdfのプラグ インを入れたことをすっかり忘れているから、djvuのためにプラグインを入 れることを面倒に感じる。pdfもdjvuもプラグイン入れなければブラウザか ら見えない事情は同じである。プラグインを入れておいてソンはない。djvu ファイルが主に古文書方面に使われるから縁がなかったのである。

なお、毎戸遺跡の報告書の図面では詳しい発掘場所までは分からなかった。 どんなものが出土したかが重要であって発掘場所は凡そでよいのであろう。 位置情報を知ることはできなかったが、djvuファイルが見えるようになった ことは、どこかできっと役にたつことだろう。(Mon May 27, 2013)

(Tue May 28, 2013)djvuプラグインを入れたinternet explorerから表示し たdjvuファイルの保存については、ある一つのページを保存する方法(イン ダイレクト形式)と全ぺージを一つのファイル(バンドル形式)として保存す るのどちらかを選ぶことができる。

ブラウザの中にインライン表示されるWinDjVuViewer.exeのメニューバーか らの保存は、全ページ一括一ファイル保存になる。表示ウィンドウ上での右 クリックで現われるコンテキストメニューのファイルでは「ページを別名で 保存」(インダイレクト)と「ファイルを別名で保存」(バンドル)のどちらか を選ぶことができる。(なお、インラインのWinDjVuViewerの画面の外側に internet explorerのメニューバーがある。こちらを使ってはいけない。内 側のメニューを使う)

一ページ一ファイル保存(インダイレクト)は、右クリックによるコンテキス トメニューからでないと出来ない。以前はメニューバーの「文書の保存」ア イコンからの保存でも、ページ保存とファイル保存のどちらかを指定するよ うになっていたらしい。これは事情にうとい不案内なユーザーを惑わせるこ とになる。とくに指定が無ければ全ページ一ファイル保存とすることにした ようである。

一般にファイル保存とは、ファイルの全部を保存することを意味する。ある 文書の特定のページだけを保存することを意味しない。おそらく、それは一枚も の文書の束ではないからである。何枚(ページ)にもまたがった文書は一揃い でないと困る。ページの切れ目と内容の切れ目が同じとはかぎらない。djvu は、もともとが画像ファイルの集まりであるから「保存=全ページ保存」を 常識としない。しかし、世間の常識を軽視(無視)できないので単一ページ保 存を目立たないように(隠)している(やんわり隠しコマンド)。

DjVu文書にはインダイレクト形式とバンドルド形式の2種類のマルチページ 形式があります。どちらの形式でも保存することができます。バンドルド形 式は高速なネットワーク回線が利用できる場合(ローカルファイルの場合や イントラネットなど)に使用します。回線が細い場合はインダイレクト形式 を選択します。
バンドルド形式ではすべてのページがひとつのファイルに保存されます。こ のためファイルの取り扱いが簡単ですが、すべてのページが常にダウンロー ドされてしまいます。インダイレクト形式では各ページが独立したファイル として保存されます。そのため、ユーザは表示したいページだけをダウンロ ードすることができます。インダイレクト形式は細い回線でも軽快にページ のダウンロードができる反面、文書ごとに複数のファイルを作成するため管 理が煩雑になります。 (引用終わり)

| | コメント (2) | トラックバック (23)

« 2013年11月 | トップページ | 2014年1月 »