« 2013年1月 | トップページ | 2013年3月 »

2013年2月

2013年2月26日 (火)

google検索結果(web page)の保存と整理方法

google検索結果(web page)の保存と整理方法

Time-stamp: "Wed Apr 25 12:13:46 JST 2012"

グーグル検索からお目当ての元記事ページに飛んだところから必要な部分を 抜き書き(コピーアンドペースト)する。そのページをブックマーク(お気に 入り)にするだけでは再びアクセスしなければならない。あの記事をもう一 度読みたいとアクセスしてもページがなくなっていることもある。とくに新 聞社とか放送局のニュースページの寿命は短かい。サーバーの保存スペース の制限から古い記事はどんどん削除されていく。そういうものは自分のパソ コンに保存するしかない。

ホームページのブックマーク(お気に入り)を保存するだけでは、そのページ の何に注目したのかが分からなくなる。ページタイトルだけでは困る。ブロ グのタイトルはメールのサブジェクトのように本文の内容を一言に圧縮して あるものが多い。従来型のホームページは一つのタイトルに多くの内容を詰 め込んでいる。ページタイトルだけでは自分が必要とした何が書かれていた のかを忘れてしまう。かと言ってページのまるごと保存では内容の保存しす ぎになり、どこを保存したかったのかが分からなくなる。

ブラウザのメニューからホームページの、まるごと保存はしない。ブログや ホームページは目立つように、読まれやすいようにデザインされる。最近の 横長ディスプレイでは一行がとても長くなる。ブラウザは画面幅に合わせて 文章の行末を折り返し表示する仕組みになっている。横長画面になるとそれ に合わせて一行が長いものになる。人間の目は一行40文字くらいに慣らされ てきたためか、はたまた目の性能からか長大すぎる行は読みづらい。ブログ では横幅を三分割して真ん中の本文の字数が30字から40字になるように調整 されている。左右の脇にある部分は本文の内容を理解するに必要がない。こ れらの雑音部分をひっくるめて保存するのは無駄である。

ホームページの本文から抜き出したい部分の先頭または末尾にマウスポイン タを置いて左ボタンを押したままドラッグすると文章が反転表示になり選択 状態になる。反転表示されているとき右クリックメニューからコピーを選ぶ。

テキストエディターをアクティブ(マウスで編集画面を左クリックする)にし てマウスポインタをカーソル位置におき、右クリックメニューから貼り付け を選ぶ。あとはエディターの編集(整形)コマンドにより読み易いように整え る。

ブラウザ画面上で、マウス左クリックしてドラッグするときに画像も反転表 示になることがある。そのままコピーすると画像のキャプション(名前とか 画像ファイル名)がテキストエディターに貼り付けられることがある。これ は整形するときに消す。

ブラウザの画面からコピーアンドペーストする方法は当たり前すぎて「いわ ずがもな」ことなのか説明している記事は案外少ない。試行錯誤しているう ちに自然と身についてしまうものらしい。どこからやり方を学んだのかは最 早分からなくなっている。

なお、pdfファイルでは文字列を選択できないようにしてあるもの(コピー ロック)がある。そういう場合はパソコン画面を上下二分割にして一方をブ ラウザ、もう一方をテキストエディタにしてブラウザに表示している元の文 章を見ながらテキストエディターに打ち込む。本当はマウスでドラッグして コピペするよりは自分で打ち込んだほうが頭に強く残る。昔の人は本を丸写 ししたものである。そもそも本が無いのだから自分で複製するしかなかっ た。コピー機なら5秒、手書き(パソコンなら手打ち)丸写しは30分と段違い だが頭に残る度合いは手書きのほうが何百倍である。掛けた時間分の効果は ある。「勉強の第一歩は教科書丸写し」は毛筆の時代からパソコンの時代に 変わっても同じである。

なお、ブラウザからテキストエディターではなくてワープロソフトに貼り付 ける場合は画像もそのままが貼り付けられる。ブラウザの印刷機能によるよ りは、ワープロソフトに貼り付けたもののほうが綺麗に印刷できる。ワープ ロは成果物を印刷することを最終目標にしている。ブラウザはホームページ を表示するためのソフトであって、印刷機能はオマケとして付けてあるだけ である。専用ソフトのほうがオマケ機能で印刷するより便利である。

ホームページから抜き書きした文章の貼り付け先のソフトとしてテキストエ ディターを使う。ワープロソフトは私のパソコンにはインストールされてな い。あったとしても使わないだろう。次々と貼り付けると一行40字くらいで 数千行になることが多い。これくらいの分量になるとワープロソフトの成果 物ファイルは同じ内容のテキストファイルに比べてそのサイズがかなり大き くなる。そうするとワープロソフト自体の動作が遅くなる。数百行くらいの ファイルならワープロとエディターでそれほどファイル読み込みやスクロー ルの速さは変わらない。しかし数万行ともなるとワープロなぞ使っていられ ない気分にさせられる。行数の多い長大文書を扱うにはテキストエディター の軽快がよい。

テキストエディターにも付属しているgrepツールはワープロソフトのファイ ルからキーワード検索することはできない。grepが扱えるのはテキストファ イルに限られる。ワープロソフトに付いている検索はそのソフトが開いてい るファイルのなかだけを探す。grepツールは、あるディレクトリ(フォルダ) 内にあるテキストファイルを横断的に検索するものである。誰でも文書ファ イルはテーマ別にフォルダを分けて保存する。これから書こうとするテーマ が含まれるようなファイルが既にあるならそれに追加書きしたい。しかし、 ファイル名だけではどういうジャンンルの記事を書き込んでいるファイルな のかが判断できない。そういうときにgerpツールが役にたつ。

私はテキストファイルのファイル名に日本語を使わない。いわゆる8.3形式 のファイル名を付ける。ファイル名として英数字8文字、そして拡張子の3文 字である。適当な英単語か日本語のローマ字表記をファイル名としている。 インターネットを介してファイルをやり取りすることのない単独のパソコン では、日本語ファイル名が不都合になることは殆どない。ファイル名指定で かな漢字変換を起動することが煩わしいと思わないなら何ら問題ない。

(注)ファイルの拡張子(file extension)は、マイクロソフトが使い始めたも のかと思っていた。そうではなくてそれ以前からあったものらしい。何とな くオタクっぽい響きがある。テレビコマーシャルの息子からの電話に出た親 父が電話口で「拡張子!?」と怪訝な顔でつぶやく場面が印象に残ってい る。拡張子という用語に目が泳がないようならデキル!というニュアンスを 感じる。最近のwindowsパソコンでは拡張子を表示しないのがデフォルトに なっている。拡張子はファイルが何のソフトで作られたものかが分かる便利 なものであるが、パソコンを文房具として使うユーザーには鬱陶しいものな のだろう。何やら分からない余分なものがファイル名に尻尾として付くのは 煩わしい。拡張子はソフトウェアが勝手に付けるものであってパソコンの使 い手が付けるものではない。ファイルのアイコンをダブルクリックすればそ れを作成したソフトウェアで開ける。拡張子を表示しなくても問題ないじゃ ないかとなるようである。
ファイル名に拡張子を付ける必要のないコンピュータの世界もドットプラス 二、三文字をファイル名の接尾辞として付ける場合が殆どである。拡張子 (接尾辞)によってどのソフトウェアが作ったファイルであるかが識別できる というのがその理由である。ファイルを処理するソフトウェアをユーザーが 指定しなければならない場合もある。windowsでもダブルクリックで開かな いファイルがある。どうしますかと聞かれて困ってしまう。そのときに拡張 子(接尾辞)が役にたつ。人間には拡張子が付いているほうが便利である。

今でも従来型のホームページではサーバーにftpツールで関係ファイルを アップロードする。この際に日本語ファイル名は使えない、使うべきでない というルールがある。ファイルの内容が日本語であることは構わないが、 ファイル名が日本語であるとトラブルになる。インターネットという仕組み がアメリカで作られたためにファイル名として英数字しか受け付けない事情 があるためである(処理に失敗することがある)。インターネットと無縁で、 コマンドライン(真っ黒な画面に白抜き文字の世界)からパソコンを使ってい た時代は日本語ファイル名は元々使えないか、使えるにしてもコマンド入力 時は英数字(かな漢字変換オフ)、ファイル名の日本語はかな漢字変換オンと しなければならない(今でもその事情は変わらない)不自由がある。

日本人にとってユーザーフレンドリーな日本語ファイル名は昔のパソコンに とってはマシンアンフレンドリーなものであった。そのため英数字だけを使 う8.3形式のマシンフレンドリーなファイル名を付ける習慣がついてしまっ た。ファイル名に使える文字数が少ないので、文書内容に対してファイル名 は漠然とした曖昧なものになってしまう。しばらくするとどんなファイル名 にしたかを忘れてしまう。同じような内容の文書が二つあるようになったり する。

一つのディレクトリ(フォルダ)にあるファイルが数十個であればファイル内 容とファイル名の関連付けは何となく分かる。それでもファイル名として頭 字語(acronym、例えばUNESCOのような)的な名前をつけたりすると、いずれ 分からなくなる。そうなったらそのファイルの内容を表示できるソフトで 開いてみる人海戦術を取るしかない。ファイル数が数百にもなるとお手上げ 状態になる。

そういうときは一つのディレクトリにあるテキストファイルを横断的に検索 できるgrepを使う。何かのキーワードを指定してそれが含まれるテキスト ファイルをピックアップしてくれるツールである。このツールは、リクエス トを受け付けてからその所属ディレクトリにあるファイルを検索する。その ため処理に時間がかかる。ディレクトリにあるファイル数が多ければ一服す るほど待たされる。キーワードをとっかえひっかえ再検索する気にならな い。

パソコンを使い始めた頃は、作った文書を紙に印刷することが最終ゴールで あった。ノートパソコンとは、大学ノートくらいの大きさのものと思ってい る。日常の物書きをパソコンでするようになると、ノートパソコンとは大学 ノートに何でも書き付けるように、紙のノート代りに使うものになった。そ うなるにつれてパソコンに書き付けた(打ち込んだ)ものを印刷することは殆 どなくなった。書き直すたびにいちいち印刷してたら紙の山になってしまう。

パソコン内にある文書ファイルの不便は、パラパラとめくりながらの斜め読 みができにくいことである。もっとも数千ページにもなったら紙ベース情報 であっても無いよりはマシ程度のものになる。必要と時間があれば探す気に なるだろうが、そうでなければ枕にするくらいしか使い道はない。長大な文 書、多数の文書から目的のものを探しだす作業は機械(コンピュータ)にまか せるべきである。

対象がテキストファイルならgrepがある。ただしこれは検索のリクエストが あってから探しはじめる泥縄式ツールである。結果が出るまでに時間がかか る。そこで私は全文検索システムのnamazuを使っている。あらかじめ文書に インデックスを付けておいて検索リクエストに応える仕組みである。ページ 数の多い参考書とか学術書には目次とは別に巻末の索引がある。あるキー ワードが目次から見つからなかったら索引ページを見る。これと同じことが パソコン内にある文書ファイルに対してできるようにするものである。

全文検索の対象をインターネット上にある膨大なファイル群に対して行なう のがグーグルなどの検索サイトになる。ただしnamazuと違ってキーワードの 出現頻度だけでなくて参照されることの回数とか多くのサイトからリンクを 張られているとかの色々を勘案して検索結果での表示順序を決めている。

インターネット上にある文書をグーグル検索するように自分のパソコン内に ある文書をグーグル式に検索したくなる。実はグーグルがそのためのグーグ ルデスクトップ検索を提供している。自分のパソコンにインストールして使 う。ただし、このツールは自分のパソコン内の文書を自分のために検索する だけである。インターネットを介して他所の人に対して自分のパソコン内の 文書を丸見えにするものではない。

インターネットから取得した情報はすべてその文字部分だけを保存するよう にしている。画像や映像は元ページにもう一度アクセスしてもらえばよいと いうスタンスである。文字情報は必要な部分だけを抜き出すことが容易にで きる。表現を変えたり注釈を加えたりも簡単である。一見して氷解する絵ほ ど分かりやすいものはないが、その一部だけを取り出すのに時間がかかる。 きれいに模写するには絵心という慣れ(うで)がいる。まして絵に書き加える ことはほどんど不可能である(それ用の高機能画像処理ソフトが必要だろ う)。絵の加工はできないものとして保存も編集もしない。そうすると文字 だけ扱うテキストエディターさえあればよいことになる。

日常茶飯的にグーグル検索していると、すでにテキストファイルとしてパソ コン内に取り込み済みの記事に再びアクセスすることがある。一人の人間が 関心を寄せる話題をそれほど多くはない。それでも以前に読んだ記事を忘れ ている。インターネット上にある記事なら何度でもグーグルに尋ねられる。 自分のパソコンに死蔵しているものはなかなか見つけられない。自分のパソ コンの中を探しまわる道具(ツール)は準備しておいたほうがよい。

ブラウザ(firefox)とテキストエディター(vim)を切り替えながら、毎日イン ターネット上をうろついて情報(ニュース的な最新情報ではなくて枯れた情 報)を集めている。そしてパソコン内は全文検索システム(namazu)を使って 分類・整理する。ファイル内容を紙に印刷することは滅多にない。グーグル で集めた情報をネタ元にして書いたブログ記事が印刷のようになっている。 自分が持っている特定のパソコンからでなくても読めるという意味で印刷物 なのだと思う。インターネットに印刷している(!)のかな(?)。

| | コメント (0) | トラックバック (0)

« 2013年1月 | トップページ | 2013年3月 »