c#转码后出现?字符码为8203的零宽空白 - 小众知识

c#转码后出现?字符码为8203的零宽空白

2020-08-16 12:41:33 苏内容
  标签: 字符/转码
阅读:5066

这是[Unicode字符“零宽度空间”(U +200B)。

此字符用于换行控制;它没有宽度,但是它存在于两个字符之间并不能防止对齐时字母间距的增加

根据给定的代码示例,该实体在这种情况下是完全多余的。必须偶然插入它,很可能是由试图编辑带有空白或突出显示内容的错误的编辑器,或者是最终使用使用该字符的键盘语言(例如阿拉伯语)的最终用户插入的。



空白字符是指在屏幕不会显示出来的字符(如空格,制表符tab,回车换行等)。空格、制表符、换行符、回车、换页垂直制表符和换行符称为 “空白字符”,因为它们为与间距单词和行在打印的页 )的用途可以读取更加轻松。  标记分隔 (一定) 由空白字符和由其他标记,例如运算符和标点。在分析代码时, C 编译器忽略空白字符,除非使用它们作为分隔符或作为字符常数或字符串文本元素。使用空白字符使程序更易于阅读。请注意编译器还将注释作为空白。

下面贴一段c#处理空白字符的代码:

  1. public static class TypeExtensions
  2. {
  3. // The Trim method only trims 0x0009, 0x000a, 0x000b, 0x000c, 0x000d, 0x0085, 0x2028, and 0x2029.
  4. // This array adds in control characters.
  5. public static readonly char[] WhiteSpaceChars = new char[] { (char)0x00, (char)0x01, (char)0x02, (char)0x03, (char)0x04, (char)0x05,
  6. (char)0x06, (char)0x07, (char)0x08, (char)0x09, (char)0x0a, (char)0x0b, (char)0x0c, (char)0x0d, (char)0x0e, (char)0x0f,
  7. (char)0x10, (char)0x11, (char)0x12, (char)0x13, (char)0x14, (char)0x15, (char)0x16, (char)0x17, (char)0x18, (char)0x19, (char)0x20,
  8. (char)0x1a, (char)0x1b, (char)0x1c, (char)0x1d, (char)0x1e, (char)0x1f, (char)0x7f, (char)0x85, (char)0x2028, (char)0x2029 };
  9. /// <summary>
  10. /// Gets a value that indicates whether or not the collection is empty.
  11. /// </summary>
  12. public static bool IsNullOrBlank(this string s)    
  13. {
  14. if (s == null || s.Trim(WhiteSpaceChars).Length == 0)
  15. {
  16. return true;
  17. }
  18. return false;
  19. }
  20. public static bool NotNullOrBlank(this string s)
  21. {
  22. if (s == null || s.Trim(WhiteSpaceChars).Length == 0)
  23. {
  24. return false;
  25. }
  26. return true;
  27. }
  28. }

转载于:https://www.cnblogs.com/shanyou/p/3535215.html



最近在用AngularJS进行开发时遇到了灵异事件,从某网站拷贝下来的看似无比正确的代码运行总是出错。

经验告诉我们,看上去正确的代码可能实际上并不正确。我是指字符层面上。其中可能存在乱码,存在奇怪的空白字符,这些均会导致问题。

然而我仔细检查了一番,并未发现乱码和多余空格。唯一的异常情况是,AngularJS的插值字符串{{xxx}}在Visual Studio中的代码着色不太对。在安装了VS的最新Web工具后,这插值字符串中xxx应当被编辑器识别并显示紫色,{{和}}会加粗显示,但是这一段粘贴来的代码中它们仍显示蓝色,和正常HTML attribute一样。

我起初并未放在心上,以为这只是VS的一个小bug。但诸般走投无路后,我开始重新审视这个异常。当我尝试就地手打一个{{进去并观察到正确的加粗、着色后,我认为目标已锁定。

我复制了这个手打的{{并粘贴取代原来的“{{”,那着色一下子就正常了。替换了所有的插值字符串后,程序运行完全正常了。

很明显,这看上去完全一样的“{{”是不同的字符。在Chrome Console中检验相等性,返回false。

但到了这一步,我的思维还未达到。我推断其中至少有一个{不同。用charCodeAt()函数检验一下,果然,charCodeAt(0)为123,这是正常的{符号无疑;charCodeAt(1)返回8203,这是个什么鬼!是{的孪生兄弟吗?

不是的。查找资料后得知,这个字符叫做Zero Width Space,中文可称为“零宽空白”。看到这里我恍然大悟,原来之前我一直被骗了,那个邪恶的字符串居然不是你看到的两个字符,而是三个。参见维基百科

http://zh.wikipedia.org/wiki/%E7%A9%BA%E6%A0%BC

8203字符即其中的U+200B。

一个有趣的JSFuck式的应用见

http://ucren.com/blog/archives/549

http://mn.tn/dev/z.js/

这个字符在主流文本编辑器中均没有任何显示效果,就像一只看不见、摸不着的幽灵。我一般习惯让文本编辑器显示空白字符,以区分普通空白、制表符、换行符等,但是遇到这个零宽空白,我真是给跪了。


扩展阅读
相关阅读
© CopyRight 2010-2021, PREDREAM.ORG, Inc.All Rights Reserved. 京ICP备13045924号-1