過去の桐井戸端BBS (桐ver.9)
21381 HTMLファイルのソースを取り込むことはできるのでしょうか 岡崎 2003/07/11-23:23
はじめまして、
初歩的な質問かもしれませんが、教えてください。
一括処理であるHTMLページのソース(例えばhttp://www.yahoo.co.jp/)を操作なしで、取り込むことは出来るのでしょうか?
HELPを見ても見つからなかったのでよろしくおねがいします。
21382 Re:HTMLファイルのソースの取り込み うにん 2003/07/12-00:12
記事番号21381へのコメント
リモートから直接は無理でしょう。
外部プログラムでローカルファイルに落とせば可能ですが、
そもそも桐の文字列長が4000文字までなので、任意のソースを読み込むのは不可能です。
適当なところで分割してしまえばいいかもしれませんが。

21384 Re:HTMLファイルのソースの取り込み hidetake 2003/07/12-00:26
記事番号21382へのコメント
落とした後のものをどうするかは別として,ただファイルに落とせば良いと言うのであれば wget が便利です。

wget http://www.yahoo.co.jp/

と実行するだけです。

wget に関してはインターネットで検索すればいくらでも出てきます。
http://www.geocities.jp/horiuchimasaru/wget.html


Windows 用のバイナリとしては,下記のものは https(SSL) に対応しているので結構便利です。
それから wget は http も ftp も落とせるので使い方次第で有効活用方法はさまざまです。

ftp://sunsite.dk/projects/wget/windows/
ftp://sunsite.dk/projects/wget/windows/wget-1.8.2b.zip
ftp://sunsite.dk/projects/wget/windows/ssllibs.zip


21385 Re:HTMLファイルのソースの取り込み 岡崎 2003/07/12-00:32
記事番号21382へのコメント
夜分に早速のご返事ありがとうございます。
外部プログラムを使わないとだめですか・・・
一から作るのは難しいでしょうね・・・
そういうソフトがあるか探してみます
ありがとうございました。

21386 Re:HTMLファイルのソースの取り込み hidetake 2003/07/12-00:40
記事番号21384へのコメント
>そもそも桐の文字列長が4000文字までなので、任意のソースを読み込
>むのは不可能です。

これについては結構やっかいだと思います。

もし途中で改行があるなら1行を1レコードとして取り込む事も可能でしょうが,
HTML の場合は何も途中に改行は無くて構わないので,
例えば「管理工学研究所」の掲示板のようなソースに出くわした時は大変だと思います。
http://www2.k3-unet.ocn.ne.jp/board/kiri/board.pl

桐で取り込む前に何らかの前処理をしないと,桐に直接取り込もうとすると問題が生ずると思います。

それに HTML ファイルの文字コードの問題もあります。

http://www.yahoo.co.jp/ だって EUC なので,
文字数の制限がクリアできたとしても,文字コードで Shift_JIS以外のものをどう取り込むか?

もしターゲットが決まったもので,文字数とか文字コードの制限が無ければ簡単でしょうが?


21387 Re:HTMLファイルのソースの取り込み 岡崎 2003/07/12-00:52
記事番号21384へのコメント
早速のご返事ありがとうございます、
探しに行こうかと思っていたのですが、
ダウンロードするファイルはある程度決まっているので実際に取り込みたいのは
http://www.amazon.co.jp/exec/obidos/ASIN/4166603302/qid%3D1057938954/250-4556468-1529006
この書式の中から欲しいデータが取り出せればいいので、なんとかいけそうです。
ありがとうございました。

戻る