用Java编写HTML文件分析程序 <h1>用<span lang="E

用Java编写HTML文件分析程序

Category : Internet-Network
Tags :
Update : 2008-07-07
Size : 1.04kb
Downloaded ：0次
Author ：tiberxu
About ： Nobody
PS : If download it fails, try it again. Download again for free!

Introduction - If you have any usage issues, please Google them yourself

用Java编写HTML文件分析程序　一、概述　　　　　　　　Web服务器的核心是对Html文件中的各标记（Tag）作出正确的分析，一种编程语言的解释程序也是对源文件中的保留字进行分析再做解释的。实际应用中，我们也经常会碰到需要对某一特定类型文件进行要害字分析的情况，比如，需要将某个HTML文件下载并同时下载与之相关的.gif、.class等文件，此时就要求对HTML文件中的标记进行分离，找出所需的文件名及目录。在Java出现以前，类似工作需要对文件中的每个字符进行分析，从中找出所需部分，不仅编程量大，且易出错。笔者在近期的项目中利用Java的输入流类StreamTokenizer进行HTML文件的分析，效果较好。在此，我们要实现从已知的Web页面下载HTML文件，对其进行分析后，下载该页面中包含的HTML文件（假如在fr a me中）、图像文件和Class（Java Applet）文件。　　　　　　　　二、StreamTokenizer类　　　　　　　　StreamTokenizer即令牌化输入流的作用是将一个输入流中变成令牌流。令牌流中的令牌实体有三类：单词（即多字符令牌）、单字符令牌和空白（包括Java和C/C++中的说明语句）。　　　　　　　　StreamTokenizer类的构造器为： StreamTokenizer(InputStream in) 　　　　　　　　该类有一些公有实例变量：ttype、sval和nval ,分别表示令牌类型、当前字符串值和当前数字值。当我们需要取得令牌（即HTML中的标记）之间的字符时，应访问变量sval。而读向下一个令牌的方法是调用nextToken（）。方法nextToken()的返回值是int型，共有四种可能的返回：　　　　　　　　StreamTokenizer.TT_NUMBER: 表示读到的令牌是数字，数字的值是double型，可以从实例变量nval中读取。　　　　　　　　StreamTokenizer.TT_Word: 表示读到的令牌是非数字的单词（其他字符也在其中），单词可以从实例变量sval中读取。　　　　　　　　StreamTokenizer.TT_EOL: 表示读到的令牌是行结束符。　　　　　　　　假如已读到流的尽头，则nextToken()返回TT_EOF。　　　　　　　　开始调用nextToken()之前，要设置输入流的语法表，以便使分析器辨识不同的字符。WhitespaceChars(int low, int hi)方法定义没有意义的字符的范围。WordChars(int low, int hi)方法定义构造单词的字符范围。　　　　　　　　三、程序实现　　　　　　　　1、HtmlTokenizer类的实现　　　　　　　　对某个令牌流进行分析之前，首先应对该令牌流的语法表进行设置，在本例中，即是让程序分出哪个单词是HTML的标记。下面给出针对我们需要的HTML标记的令牌流类定义，它是StreamTokenizer的子类：　　　　　　　　　　　　import java.io.*; 　　　　import java.lang.String; 　　　　class HtmlTokenizer extends 　　　　StreamTokenizer { 　　　　//定义各标记，这里的标记仅是本例中必须的，　　　　可根据需要自行扩充　　　　 static int HTML_TEXT=-1; 　　　　 static int HTML_UNKNOWN=-2; 　　　　 static int HTML_EOF=-3; 　　　　 static int HTML_IMAGE=-4; 　　　　 static int HTML_fr a me=-5; 　　　　 static int HTML_BACKGROUND=-6; 　　　　 static int HTML_APPLET=-7; 　　　　　　　　boolean outsideTag=true; //判定是否在标记之中　　　　　　　　 //构造器，定义该令牌流的语法表。　　　　 public HtmlTokenizer(BufferedReader r) { 　　　　super(r); 　　　　this.resetSyntax(); //重置语法表　　　　this.wordChars(0,255); //令牌范围为全部字符　　　　this.ordinaryChar('< '); //HTML标记两边的分割符　　　　this.ordinaryChar('>'); 　　　　 } //end of constrUCtor 　　　　　　　　 public int nextHtml(){ 　　　　int token; //令牌　　　　try{ 　　　　switch(token=this.nextToken()){ 　　　　case StreamTokenizer.TT_EOF: 　　　　//假如已读到流的尽头，则返回TT_EOF 　　　　return HTML_EOF; 　　　　case '< ': //进入标记字段　　　　outsideTag=false; 　　　　return nextHtml(); 　　　　case '>': //出标记字段　　　　outsideTag=true; 　　　　return nextHtml(); 　　　　case StreamTokenizer.TT_WORD: 　　　　//若当前令牌为单词，判定是哪个标记　　　　if (allWhite(sval)) 　　　　 return nextHtml(); //过滤其中空格　　　　else if(sval.toUpperCase().indexOf("fr a me") 　　　　!=-1 && !outsideTag) //标记fr a me 　　　　 return HTML_fr a me; 　　　　else if(sval.toUpperCase().indexOf("IMG") 　　　　!=-1 && !outsideTag) //标记IMG 　　　　 return HTML_IMAGE; 　　　　else if(sval.toUpperCase().indexOf("BACKGROUND") 　　　　!=-1 && !outsideTag) //标记BACKGROUND 　　　　 return HTML_BACKGROUND; 　　　　else if(sval.toUpperCase().indexOf("APPLET") 　　　　!=-1 && !outsideTag) //标记APPLET 　　　　 return HTML_APPLET; 　　　　default: 　　　　System.out.println ("Unknown tag: "+token); 　　　　return HTML_UNKNOWN; 　　　　 } //end of case 　　　　}catch(IOException e){ 　　　　System.out.println("Error:"+e.getMessage());} 　　　　return HTML_UNKNOWN; 　　　　 } //end of nextHtml 　　　　　　　　protected boolean allWhite(String s){//过滤所有空格　　　　//实现略　　　　 }// end of allWhite 　　　　　　　　} //end of class 　　　　　　　　以上方法在近期项目中测试通过，操作系统为Windows NT4，编程工具使用Inprise Jbuilder3。

Packet file list

(Preview for download)

Packet : HtmlTokenizer.rar filelist
HtmlTokenizer.java

Related instructions

We are an exchange download platform that only provides communication channels. The downloaded content comes from the internet. Except for download issues, please Google on your own.
The downloaded content is provided for members to upload. If it unintentionally infringes on your copyright, please contact us.
Please use Winrar for decompression tools
If download fail, Try it againg or Feedback to us.
If downloaded content did not match the introduction, Feedback to us，Confirm and will be refund.
Before downloading, you can inquire through the uploaded person information

Comment

All comment

Nothing．

Post Comment

*Quick comment	Recommend Not bad Password Unclear description Not source Lost files Unable to decompress Bad
*Content ：
*Captcha :