HTMLファイルのソースを取り込むことはできるのでしょうか

過去の桐井戸端ＢＢＳ　（桐ver.９）

21381	HTMLファイルのソースを取り込むことはできるのでしょうか	岡崎	2003/07/11-23:23
はじめまして、初歩的な質問かもしれませんが、教えてください。一括処理であるHTMLページのソース（例えばhttp://www.yahoo.co.jp/）を操作なしで、取り込むことは出来るのでしょうか？ HELPを見ても見つからなかったのでよろしくおねがいします。
21382	Re:HTMLファイルのソースの取り込み	うにん	2003/07/12-00:12
記事番号21381へのコメントリモートから直接は無理でしょう。外部プログラムでローカルファイルに落とせば可能ですが、そもそも桐の文字列長が4000文字までなので、任意のソースを読み込むのは不可能です。適当なところで分割してしまえばいいかもしれませんが。
21384	Re:HTMLファイルのソースの取り込み	hidetake	2003/07/12-00:26
記事番号21382へのコメント落とした後のものをどうするかは別として，ただファイルに落とせば良いと言うのであれば wget が便利です。 wget http://www.yahoo.co.jp/ と実行するだけです。 wget に関してはインターネットで検索すればいくらでも出てきます。 http://www.geocities.jp/horiuchimasaru/wget.html Windows 用のバイナリとしては，下記のものは https(SSL) に対応しているので結構便利です。それから wget は http も ftp も落とせるので使い方次第で有効活用方法はさまざまです。 ftp://sunsite.dk/projects/wget/windows/ ftp://sunsite.dk/projects/wget/windows/wget-1.8.2b.zip ftp://sunsite.dk/projects/wget/windows/ssllibs.zip
21385	Re:HTMLファイルのソースの取り込み	岡崎	2003/07/12-00:32
記事番号21382へのコメント夜分に早速のご返事ありがとうございます。外部プログラムを使わないとだめですか・・・一から作るのは難しいでしょうね・・・そういうソフトがあるか探してみますありがとうございました。
21386	Re:HTMLファイルのソースの取り込み	hidetake	2003/07/12-00:40
記事番号21384へのコメント >そもそも桐の文字列長が4000文字までなので、任意のソースを読み込 >むのは不可能です。これについては結構やっかいだと思います。もし途中で改行があるなら１行を１レコードとして取り込む事も可能でしょうが， HTML の場合は何も途中に改行は無くて構わないので，例えば「管理工学研究所」の掲示板のようなソースに出くわした時は大変だと思います。 http://www2.k3-unet.ocn.ne.jp/board/kiri/board.pl 桐で取り込む前に何らかの前処理をしないと，桐に直接取り込もうとすると問題が生ずると思います。それに HTML ファイルの文字コードの問題もあります。 http://www.yahoo.co.jp/ だって EUC なので，文字数の制限がクリアできたとしても，文字コードで Shift_JIS以外のものをどう取り込むか？もしターゲットが決まったもので，文字数とか文字コードの制限が無ければ簡単でしょうが？
21387	Re:HTMLファイルのソースの取り込み	岡崎	2003/07/12-00:52
記事番号21384へのコメント早速のご返事ありがとうございます、探しに行こうかと思っていたのですが、ダウンロードするファイルはある程度決まっているので実際に取り込みたいのは http://www.amazon.co.jp/exec/obidos/ASIN/4166603302/qid%3D1057938954/250-4556468-1529006 この書式の中から欲しいデータが取り出せればいいので、なんとかいけそうです。ありがとうございました。

戻る