奇怪的编码,奇怪的显示——一个关于 的故事
我们常常会解析html,解析html通常来说有两种方法,其一是直接对html进行解析,其二是将html转换到xml再解析。因为学习成本的关系,越来越倾向于使用后者来实现。第二种方法一个常用的工具就是:neko html parser,他将html转换到xml,又使用了Xerces2进行xml操作。
于是问题开始了,在html中的&符号表示的一些特别意义,在xml中往往没有定义,比如今天我要讲的 他在html中表示non-breaking space,但是你不能用同样的方式在xml中表示,因为xml中&开头表示,可解析的实体,这个实体被DTD预先定义,而 并没有被定义,所有如果用Xerces2来解析出现这样字符的xml文件(当然,这里假设你也没有自己预先定义),会抛出如下异常:
org.xml.sax.SAXParseException: The entity "nbsp" was referenced, but not declared.
一般给出如下的解决方案:使用  这又是什么道理呢?因为这是HTML ISO-8859-1 Reference 定义的规范,如下:
Character Entity Number Entity Name Description
  non-breaking space
neko html parser也这是使用的这样的方案,所以当解析这样一句html的时候:
<td>
big black bear bit back the big black bug.
</td>
就bei neko html parser替换成了
<td>
big black bear bit back the big black bug. 
</td>
如果这样就完了,就不会有今天这篇文章了。
但是替换之后,通过xml解析输出,显示的不是一个空格而是一个 ?,最要人命的地方了是这个?并不是ascii 中的063d。所以当我们通过getTextContent()方法的时候,我们得到的是:
big black bear bit back the big black bug.?
在实际应用中,当然需要出去这个?,于是我们打算使用replaceAll("\\?$", "")来替换掉这个?,但是你错了,你被你的眼睛骗了,这时你会发现根本不起作用你应该是用replaceAll("\240$", ""),240是160的八进制数。
如果你们喜欢docong的这篇文章,就使劲回帖哦
分享到:
相关推荐
文件上传程序
如: Z(x,y)=Sqrt(1.01-x*x-y*y) 是一个半球 3.方便自定义自己的函数库: 如: PI=ArcCos(-1);  ...
科欣网站管理系统(v2.0beta升级版),她拥有强大的新闻管理功能,可任意添加新闻的类别,实现不同的新闻由不同的管理员来进行管理,以js的方法调用,可任意设置新闻的显示数量,支持新闻中心的功能。 1.修改了新闻...
数据通信与计算机网 第 3 章 数据链路层.ppt
将HTML标签外的空格替换为
南京工程学院C语言课程设计 题目:学生成绩管理系统 姓名: __ 学号
Photoshop 第四部分 利用画笔工具绘制一幅风景图画
MATLBA程序设计教程 第11章 MATLAB图形用户界面设计.ppt
搜索引擎联邦算法设计与系统实现Algorithm Design and System.ppt
汇编语言程序设计实验报告二(分支循环程序实验) 1下载文档.doc
一个文字特效........
05级选题方向说明 医学信息教研室: 一、教务管理系统的优化处理 研究
论本土资源与法治的矛盾冲突 - - --兼谈法治的渊源与理念.docx
Tasm 5.0 安装文件 Borland
kpc卡通图片管理
1,动态Dhtml效果 2,自动保留100条纪录 3,版面风格自定义 4,标题自动切割,保持界面美观
台湾BANCHE的新闻更新程序,BIG5码。