|
perlfaq9 - perl常问问题集,第九篇
篇名perlfaq9 -网路连线(原文版 Revision: 1.16, Date: 1997/04/23 18:12:06. 中文版 $Revision: 1.13 $, $Date: 1997/07/12 20:44:25 $)
概述本篇涵盖网路连线、 Internet ,还有几个关於 WWW 的问题。
我的 CGI script可在指令列下执行但无法从浏览器执行。您能不能帮我修修看?当然,但您恐怕付不起雇我们的签约金 :-) 说真的,如果您能够先证明您已读过下列这几个 FAQs ,但遇到的问题并不单纯、非叁言两语即可回答的话,那麽您 post到 comp.infosystems.www.authoring.cgi上(如果是有关 HTTP 、 HTML ,或 CGI通信协定)的问题可能也会得到口气和缓而有用的答覆。表面上看似 Perl,但骨子里是 CGI之类的问题,如果 post到 comp.lang.perl.misc人家可能就不会这麽乐意地接受了。 几个实用的 FAQs 分别是: http://www.cnnb.net/tianyige/tppmsgs/msgs0.htm#88 http://www.cnnb.net/tianyige/tppmsgs/msgs0.htm#90 http://www.cnnb.net/tianyige/tppmsgs/msgs0.htm#91 http://www.cnnb.net/tianyige/tppmsgs/msgs0.htm#92 http://www.cnnb.net/tianyige/tppmsgs/msgs0.htm#93 【译者】上面第叁份文件,Perl-CGI-FAQ的中译版可在 http://www.cnnb.net/tianyige/tppmsgs/msgs0.htm#94 处取得。最後一份(WWW FAQ)的中译版可自 http://www.cnnb.net/tianyige/tppmsgs/msgs0.htm#95 取得。
如何去除文章中的 HTML标签?最正确(尽管不是最快)的方法是使用 HTML::Parse模组(可由 CPAN取得,是所有写 Web程式者必备的 libwww-perl 套件的一部分)。 许多人尝试用简陋的正规表示式来解决这个问题,譬如说像
以下这个「简陋」的方法对大多数的档案都有效: #!/usr/bin/perl -p0777 s/<(?:[^>'"]*|(['"]).*?\1)*>//gs 如果您想要更完整的解法,请看叁部曲的 striphtml 程式, http://www.cnnb.net/tianyige/tppmsgs/msgs1.htm#124 。
如何萃取 URLs?一个快速但不完美的做法是 #!/usr/bin/perl -n00 # qxurl - tchrist@perl.com print "$2\n" while m{ < \s* A \s+ HREF \s* = \s* (["']) (.*?) \1 \s* > }gsix; 这个版本并不替相对式写法的 URLs 作调整,也不懂代换 bases【< LINK BASE=``...''>】,或如何处理 HTML comments、同时处理同一个标签里的 HREF和 NAME 属性,或接受 URL形式的参数。同时,它要比一个较「完整」、利用 LWP [libwww-perl]模组套件的解法,例如 http://www.cnnb.net/tianyige/tppmsgs/msgs1.htm#125这个程 式,快上一百倍。
如何从 user端上传资料?如何在另一台机器上开一个档案?如果是
HTML表格的话,您可以使用 multipart/form-data的编码格式。 CGI.pm(可自 CPAN取得)中的
如何在 HTML中做 pop-up menu(跳出式选单)?用 <SELECT> 和 <OPTION>这两个标签。 CGI.pm模组(可由 CPAN取得)对这个 widget【此指跳出式选单这个介面成分】还有许多其他的介面成分都有支援【即有制作动态标签的函式】,其中有些是以巧妙模拟的方 式达成。
如何抓 HTML档案?有一个方法是,如果您的系统上装有 lynx一类的文字模式的 HTML浏览器的话,那麽可以这麽做: $html_code = `lynx -source $url`; $text_data = `lynx -dump $url`; 收录在 CPAN里的 libwww-perl (LWP)模组则提供了更强的方法来做这件事。它不但可钻过 proxies,而且也不需要 lynx: # print HTML from a URL use LWP::Simple; getprint "http://www.cnnb.net/tianyige/tppmsgs/msgs1.htm#126;; # print ASCII from HTML from a URL use LWP::Simple; use HTML::Parse; use HTML::FormatText; my ($html, $ascii); $html = get("http://www.cnnb.net/tianyige/tppmsgs/msgs1.htm#127;); defined $html or die "Can't fetch HTML from http://www.cnnb.net/tianyige/tppmsgs/msgs1.htm#127;; $ascii = HTML::FormatText->new->format(parse_html($html)); print $ascii;
如何解开或产生 Web上那些冠 %的码?以下是一个解码的实例: $string = "http://www.cnnb.net/tianyige/tppmsgs/msgs1.htm#128;what=news&fmt=.&q=%2Bcgi-bin+%2Bperl.exe"; $string =~ s/%([a-fA-F0-9]{2})/chr(hex($1))/ge; 编码比较困难一点,因为您不能盲目地把所有非字母数字的字元 (
如何【将 requests】转向到另一页去?在您的回应中不要使用
Location: http://www.cnnb.net/tianyige/tppmsgs/msgs1.htm#129 URI: http://www.cnnb.net/tianyige/tppmsgs/msgs1.htm#129 要注意的是,由於 servers采用「最高效率化」的运作方式,故在这些标头中如 果使用相对式的 URLs可能会产生奇怪的後果。
如何替网页加上密码?不一定,要看情况。您需要读您 server的使用手册,或者查查看上头所列的几个 FAQs。
要怎麽用 Perl来编辑 .htpasswd和 .htgroup这两个档案?HTTPD::UserAdmin 和 HTTPD::GroupAdmin等模组为这些档案提供了统一的物件导向介面,尽管这些档案可能以各种不同的格式储存。这些资料库可能是纯文字格式、 dbm、Berkeley DB或任何 DBI相容的资料库驱动程式 (drivers)。 HTTPD::UserAdmin支援`Basic' 和 `Digest'这两个认证模式所用的档案。以下是 一例: use HTTPD::UserAdmin (); HTTPD::UserAdmin ->new(DB => "/foo/.htpasswd") ->add($username => $password);
如何防范使用者藉由填我的 CGI表格来做坏事?阅读 CGI security FAQ,(可在 http://www.cnnb.net/tianyige/tppmsgs/msgs0.htm#92取得),还有 Perl CGI FAQ,在 http://www.cnnb.net/tianyige/tppmsgs/msgs1.htm#130 。 简单一句话:使用 tainting(沾腥?)这项功能(详见 perlsec
)。它会让所有不在您的 script中、来路不明的资料(譬如, CGI参数)无法放到
如何解读、萃取 email标头资料?如果您只需要一个「快而脏」的解法的话,您可以试试这个从再版的 ``Programming Perl''第 222页中拿出来的例子: $/ = ''; $header = <MSG>; $header =~ s/\n\s+/ /g; #将延续行合并成单行 %head = ( UNIX_FROM_LINE, split /^([-\w]+):\s*/m, $header ); 譬如说,您若想保留所有 Received栏位资料的话【因 Received栏位通常不止一个】,这个解法便不太行了。一个完整的解法是使用收录在 CPAN的 Mail::Header模组( MailTools 套件的一部分)。
如何解译 CGI表格?很多人忍不住要自己写程式来处理这部分的工作,所以您们大概都看过一大堆其中有
请不要忍不住去重新发明轮子【译者:这是英文的说法 (reinventing the wheels),也就是浪费时间做人家做过的事的意思】。请改用 CGI.pm或 CGI_Lite.pm(可自 CPAN取得)。如果您被困在无模组的 perl1 .. perl4的土地上,您可以试看看 cgi-lib.pl(可至 http://www.cnnb.net/tianyige/tppmsgs/msgs1.htm#131取得)。
如何验证 email位址?无法度。 如果没有寄封信到一个位址去试试看它会不会弹回来(即使是这麽做您还得面对停顿的问题),您是无法确定一个位址是否真的存在的。即使您套用 email 标头的标准规格来做检查的依据,您还是有可能会遇到问题,因为有些送得到的位址并不 符合 RFC-822(电子邮件标头的标准)的规定,但有些符合标准的位址却无法投 递。 许多人试图用一个简单的正规表示式,例如 不少 CGI scripts的作者使用另一个替代的方案:用一个简单的正规表示式,(如上头的那个)。如果一个位址能让这个式子对得上的话,那麽就接受这个位址。如果这个位址对不上这个式子的话,便再向使用者讯问,以确定她们填入的这个位 址正确无误。
如何解 MIME/BASE64字串?MIME-tools套件(可自 CPAN取得)不但可处理这个问题而且有许多其他的功能。有了这个套件,解 BASE64码就变得像这麽容易: use MIME::base64; $decoded = decode_base64($encoded); 一个比较直接的解法是先做一点简单的转译,然後使用 tr#A-Za-z0-9+/##cd; #去除非 base64字元 tr#A-Za-z0-9+/# -_#; #转换成 uu码格式 $len = pack("c", 32 + 0.75*length); #计算长度字元 print unpack("u", $len . $_); # uu解码後 print
如何根据使用者帐户名称自动合成 email位址?在支援 getpwuid【UNIX系统呼叫】、 $<这个变数,和 Sys::Hostname模组(标准 perl 发行的一部分)的系统上,您可试试这样的做法: use Sys::Hostname; $address = sprintf('%s@%s', getpwuid($<), hostname); 有的公司对 email位址有统筹规画,因此这麽一来您可能会合成出不被公司的 email 主机接受的位址。所以如果有这类的顾虑的话,您应该直接向 users要他们的 email 位址。 而且,并不是所有能跑 Perl的系统都像 Unix一样,可以很容易得到这些资料。 CPAN里的 Mail::Util模组( MailTools 套件的一部分)中有一个
我的程式如何送/读 email?送信:CPAN 上头的 Mail::Mailer模组( MailTools套件的一部分)只适合在 Unix 上使用,但利用到 Net::SMTP的 Mail::Internet模组则没有这个限制。 读信:用 CPAN 上的 Mail::Folder模组( MailFolder 套件的一部分)或是用 CPAN 上头的 Mail::Internet模组( 也是 MailTools 套件的一部分)。 #送信 use Mail::Internet; use Mail::Header; #设定使用哪台主机 $ENV{SMTPHOSTS} = 'mail.frii.com'; #制作标头 $header = new Mail::Header; $header->add('From', 'gnat@frii.com'); $header->add('Subject', 'Testing'); $header->add('To', 'gnat@frii.com'); #制作本文 $body = 'This is a test, ignore'; #产生 mail物件 $mail = new Mail::Internet(undef, Header => $header, Body => \[$body]); #送出 $mail->smtpsend or die;
如何找出我的主机名/网域名/IP位址?长久以来许多 code都很草率地直接呼叫
Sys::Hostname这个模组(标准 perl发行的一部分)可用来取得机器的名字,然後您便可利用
use Socket; use Sys::Hostname; my $host = hostname(); my $addr = inet_ntoa(scalar(gethostbyname($name || 'localhost'))); 至少在 Unix底下,取得 DNS网域名最简单的方法大概要算是直接从 /etc/resolv.conf这个档案里面找。当然,这麽做的前提是 resolv.conf这个档案的设定必须照惯例的格式,还有就是这个档案必先存在才行。 (Perl在非 Unix系统下尚需要一有效的方法来测出机器和网域名)
如何抓新闻讨论群的文章或群组名录?使用 Net::NNTP或 News::NNTPClient模组,两者皆可自 CPAN下载。这些模组让抓群组名录这类的差事变得这麽容易: perl -MNews::NNTPClient -e 'print News::NNTPClient->;new->list("newsgroups")'
如何抓/丢 FTP档案?LWP::Simple模组(可自 CPAN下载)可以抓,但不能丢档案。 Net::FTP模组(也可自 CPAN下载)虽比较复杂,但可用来丢、也能抓档案。
如何用 Perl做 RPC?有一个 DCE::RPC模组正在发展阶段(但尚未完成)。一旦完成後它会随着 DCE-Perl这个套件发行(可由 CPAN 下载)。至於 ONC::RPC这样的模组则还没听说有人在发展。
作者及版权事宜Copyright (c) 1997 Tom Christiansen and Nathan Torkington.着作权所有, All rights reserved。有关使用、(转)发行事宜,详见 perlfaq 。中译版着作权所有:萧百龄及两只老虎工作室。本中译版遵守并使用与原文版相同的使用条款发行。
|