[设为首页] [加入收藏]

66179.com皇冠网,王中王特马资,118ls历史图库,2017开奖记录开奖结果,26567现场直播开奖网址,60966.com,www.706222.com

您现在的位置:主页 > www.706222.com >

对GBK的理解(内附全部字符编码列表):扩充的2万汉字低字节的高

[时间:2019-07-17 07:59来源:未知作者:admin浏览:]

  由于GB 2312-80只收录6763个汉字,有不少汉字,如部分在GB 2312-80推出以后才简化的汉字(如“啰”),部分人名用字(如中国前总理的“镕”字),台湾及香港使用的繁体字,日语及朝鲜语汉字等,并未有收录在内。于是厂商微软利用GB 2312-80未使用的编码空间,收录GB 13000.1-93全部字符制定了GBK编码。

  双字节符号可以表达的64K空间如下图所示。绿色和黄色区域是GBK的编码,红色是用户定义区域。没有颜色区域是不正确的代码组合。读书笔记:GBK3/4/5新增区域第二字节是从40开始的(既不是从A1开始,也不是从00开始,是不是从20H开始不清楚),因此又少了很多字符空间,这是为什么啊。第一字节从81开始,仍然利用了高位为1的特性,即80H=128,但去掉了20H的限制(在GB2312-80双字节中表现为整体的8080H和2020H=A0A0H)。还有一个疑问,GBK为何不定义60000个中文字?再说两个字节的高位都是1,那么可利用空间只有128*128=16384,为什么能定义2玩万多个中文字符呢?原因在于第二个字节不再要求高位为1。比如,GBK3扩充区的第一个汉字“丂”的ANSI编码是8140H,这一点是经过理论和实践双验证的。

  无意中发现:以下汉字在法语XP下无法显示(显示为方块,可能是Unicode里没有包括这些字符),但在WIN7下可以:

  GBK无法处理的字符,就是和,比如在保存这篇文章的时候就会出现:

  我查了半天,发现它确实不在GBK里,但是能在Unicode表中查到(即00AB,在这里查:,并且使用UltraEdit验证)。

  另外还做了一个实验:D7下标签输入,自动变成问号,但是在XE下输入,就能认得。

  第三种验证法:在记事本里输入字符,保存成任意名字,此时系统提示,有不认识的Unicode字符,是否继续?如果点是保存,再次打开后,就是一个?。最有趣的是,这个问号被精确保存成英文字符里的问号,即3F。看来记事本是在保存前做了转换。至于转换过程不知道。。。怎么探测出Unicode的不知道。。。

  好像也不在GBK里(据说在GBK下的编码是A1A1,此处不明),因此也出错。

  另外还做了一个实验:D7下标签输入,自动变成问号,但是在XE下输入,就能认得(长度变化不明显,但至少不会变成问号)。

  第三种验证法:在记事本里输入字符“”,保存成ANSI,提示不认识的Unicode字符,强行保存再打开变成?,看来GBK不认得。保存成Unicode没问题,打开后发现全角空格的编码是00A0,在正则表达式中,全角空格的相应代码是 /u3000。半角的空格在Unicode里是0020。

  我有一个问题是:是不是会有个别汉字无法在Unicode下表示,这种情况下就不能完全显示了? 各种编码查询表:

  前言:最近工作中遇到了大量用正则表达式的情况,需要用一定的规则匹配字符串,然后提取里面的数据,格式化后转成自己想要的格式.所以作为一个菜鸟是时候再来巩固一下正则表达式了.转载请注明出处:https:/ ...

  译者注:本文译自Scott H. Young的博客,Scott拥有超强的学习能力,曾在12个月内自学完成麻省理工学院计算机科学的33门课程.本文就是他个人对于这次MIT挑战的介绍和总结. 版权声明:本 ...

  iOS应用内付费(IAP)开发步骤列表 前两天和服务端同事一起,完成了应用内付费(以下简称IAP, In app purchase)的开发工作.步骤繁多,在此把开发步骤列表整理如下.因为只是步骤列表, ...

  Java基础知识篇 面向对象和面向过程的区别 面向过程: 优点:性能比面向对象高,因为类调用时需要实例化,开销比较大,比较消耗资源;比如单片机.嵌入式开发.Linux/Unix等一般采用面向过程开发, ...

  分享一个SQLSERVER脚本(计算数据库中各个表的数据量和每行记录所占用空间) 很多时候我们都需要计算数据库中各个表的数据量和每行记录所占用空间 这里共享一个脚本 CREATE TABLE #tab ...

  发现一个比较好点的关于mac终端下命令的解释文档,全文粘贴到这,免得丢了(原文在此): Mac终端 命令行 [一]bash 终端设置      1.环境变量设置首先要知道你使用的Mac OS X是什么 ...

  8.2    接收和发送短信 收发短信应该是每个手机最基本的功能之一了,即使是许多年前的老手机也都会具备这 项功能,而 Android 作为出色的智能手机操作系统,自然也少不了在这方面的支持.每个 A ...

  struct,定义的时候是字段名与其类型一一对应,实际上Go支持只提供类型,而不写字段名的方式,也就是匿名字段,也称为嵌入字段. 当匿名字段是一个struct的时候,那么这个struct所拥有的全部字 ...

  一.前言 折腾了一两个月(中间有事耽搁了半个月),至今日基本调试成功OpenStack,现将中间的部分心得记录下来. 二.环境 使用的是devstack newton版.具体部署过程可以参考cloud ...

  ElasticSearch 2 (26) - 语言处理系列之打字或拼写错误 摘要 我们喜欢在对结构化数据(如:日期和价格)做查询时,结果只返回那些能精确匹配的文档.但是,好的全文搜索不应该有这样的限制 ...

网站首页66179.com皇冠网王中王特马资118ls历史图库2017开奖记录开奖结果26567现场直播开奖网址60966.comwww.706222.com

Power by DedeCms