奇怪的编码，奇怪的显示——一个关于&nbsp;的故事

docong

浏览: 16905 次
性别:
来自: 成都

最近访客更多访客>>

认真的泪

447806664

apple9915

yifeng0898

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (3)

社区版块

存档分类

奇怪的编码，奇怪的显示——一个关于 的故事

XML HTML .net

奇怪的编码，奇怪的显示——一个关于 的故事

我们常常会解析html,解析html通常来说有两种方法，其一是直接对html进行解析，其二是将html转换到xml再解析。因为学习成本的关系，越来越倾向于使用后者来实现。第二种方法一个常用的工具就是：neko html parser，他将html转换到xml，又使用了Xerces2进行xml操作。

于是问题开始了，在html中的&符号表示的一些特别意义，在xml中往往没有定义，比如今天我要讲的  他在html中表示non-breaking space，但是你不能用同样的方式在xml中表示，因为xml中&开头表示，可解析的实体，这个实体被DTD预先定义，而 并没有被定义，所有如果用Xerces2来解析出现这样字符的xml文件（当然，这里假设你也没有自己预先定义），会抛出如下异常：
org.xml.sax.SAXParseException: The entity "nbsp" was referenced, but not declared.
一般给出如下的解决方案：使用  这又是什么道理呢？因为这是HTML ISO-8859-1 Reference 定义的规范，如下：
Character Entity Number Entity Name Description
               non-breaking space
neko html parser也这是使用的这样的方案，所以当解析这样一句html的时候:
<td>
    big black bear bit back the big black bug. 
</td>

就bei neko html parser替换成了

<td>
    big black bear bit back the big black bug. 
</td>

如果这样就完了，就不会有今天这篇文章了。
但是替换之后，通过xml解析输出，显示的不是一个空格而是一个？，最要人命的地方了是这个？并不是ascii 中的063d。所以当我们通过getTextContent()方法的时候，我们得到的是：
big black bear bit back the big black bug.?

在实际应用中，当然需要出去这个？，于是我们打算使用replaceAll("\\?$", "")来替换掉这个？，但是你错了，你被你的眼睛骗了，这时你会发现根本不起作用你应该是用replaceAll("\240$", "")，240是160的八进制数。

如果你们喜欢docong的这篇文章，就使劲回帖哦

分享到：

青春Youth

2008-12-28 20:18
浏览 7131
评论(4)
查看更多

4 楼 docong 2008-12-28

我的版本和你一样

3 楼 docong 2008-12-28

这本来就不是NEKO的错啊，把 映射到xml中本来就该使用&#160来代替
代码就在我的文章中，得到td的Node然后getgetTextContent(),你看文章的时候认真点嘛

2 楼 sdh5724 2008-12-28

把你的代码贴出来看下？我不大认为NEKO有这么大的问题。

1 楼 sdh5724 2008-12-28

我很奇怪，我不知道你怎么做实体解析的。我怎么没有这个问题？

这个是我在继承DefaultFilter的代码片段：

public void startGeneralEntity(String name, XMLResourceIdentifier id, String encoding, Augmentations augs)
                                                                                                              throws XNIException {
        fPrintChars = false;
        if (fElementDepth <= fRemovalElementDepth) {
            if (name.startsWith("#")) {
                try {
                    boolean hex = name.startsWith("#x");
                    int offset = hex ? 2 : 1;
                    int base = hex ? 16 : 10;
                    int value = Integer.parseInt(name.substring(offset), base);
                    String entity = HTMLEntities.get(value);
                    if (entity != null) {
                        name = entity;
                    }
                } catch (NumberFormatException e) {
                    // name = "";
                }
            }
        }
        printEntity(name);
        super.startGeneralEntity(name, id, encoding, augs);
    }

我的NEKO版本：
        <dependency>
            <groupId>net.sourceforge.nekohtml</groupId>
            <artifactId>nekohtml</artifactId>
            <version>1.9.9</version>
            <type>jar</type>
            <scope>compile</scope>
        </dependency>

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

奇怪的编码，奇怪的显示——一个关于 的故事

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

评论

发表评论

相关推荐

最近访客更多访客>>

奇怪的编码，奇怪的显示——一个关于的故事