php转换unicode编码_c unicode编码转换_unicode编码转换工具

1. 字符发展历史1.1 字节1.2 单位1.3 JavaScript中的进制1.3.1 进制表示

  1. let a = 0b10100;//二进制

  2. let b = 0o24;//八进制

  3. let c = 20;//十进制

  4. let d = 0x14;//十六进制

  5. console.log(a == b);

  6. console.log(b == c);

  7. console.log(c == d);

1.3.2 进制转换

  1. console.log(c.toString(2));

  1. console.log(parseInt('10100', 2));

1.4 ASCII

最开始计算机只在美国用,八位的字节可以组合出256种不同状态。0-32种状态规定了特殊用途,一旦终端、打印机遇上约定好的这些字节被传过来时,就要做一些约定的动作,如:

这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的一位统一规定为0

这个方案叫做 ASCII 编码

American Standard Code for Information Interchange:美国信息互换标准代码

1.5 GB2312

后来西欧一些国家用的不是英文,它们的字母在 ASCII里没有为了可以保存他们的文字,他们使用127号这后的空位来保存新的字母,一直编到了最后一位255。比如法语中的é的编码为130。当然了不同国家表示的符号也不一样,比如,130在法语编码中代表了é,在希伯来语编码中却代表了字母Gimel (ג)。

从128 到 255 这一页的字符集被称为扩展字符集。

中国为了表示汉字,把127号之后的符号取消了,规定

1.6 GBK

后来还是不够用,于是干脆不再要求低字节一定是 127 号之后的内码unicode编码转换工具,只要第一个字节是大于 127 就固定表示这是一个汉字的开始,又增加了近 20000 个新的汉字(包括繁体字)和符号。

1.7 GB18030 / DBCS

又加了几千个新的少数民族的字,GBK扩成了GB18030 通称他们叫做 DBCS

Double Byte Character Set:双字节字符集。

在 DBCS 系列标准里,最大的特点是两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里

各个国家都像中国这样搞出一套自己的编码标准unicode编码转换工具,结果互相之间谁也不懂谁的编码,谁也不支持别人的编码

1.8 Unicode

ISO 的国际组织废了所有的地区性编码方案,重新搞一个包括了地球上所有文化、所有字母和符 的编码!Unicode 当然是一个很大的集合,现在的规模可以容纳100多万个符号。

ISO 就直接规定必须用两个字节,也就是 16 位来统一表示所有的字符,对于 ASCII 里的那些 半角字符, Unicode 保持其原编码不变,只是将其长度由原来的 8 位扩展为16 位,而其他文化和语言的字符则全部重新统一编码。

从 Unicode 开始,无论是半角的英文字母,还是全角的汉字,它们都是统一的一个字符!同时,也都是统一的 两个字节

1.9 UTF-8

Unicode 在很长一段时间内无法推广,直到互联网的出现,为解决 Unicode 如何在网络上传输的问题,于是面向传输的众多 UTF 标准出现了,

Universal Character Set(UCS)Transfer Format:UTF编码

unicode编码转换工具_c unicode编码转换_php转换unicode编码

1.10 编码规则

对于单字节的符号,字节的第一位设为0,后面7位为这个符号的 Unicode 码。因此对于英语字母,UTF-8 编码和 ASCII 码是相同的。

对于n字节的符号(n > 1),第一个字节的前n位都设为1,第n+ 1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的 Unicode 码。

  1. Unicode符号范围 | UTF-8编码方式

  2. (十六进制) | (二进制)

  3. ----------------------+---------------------------------------------

  4. 0000 0000-0000 007F | 0xxxxxxx

  5. 0000 0080-0000 07FF | 110xxxxx 10xxxxxx

  6. 0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx

  7. 0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

  1. function transfer(num) {

  2. let ary = ['1110', '10', '10'];

  3. let binary = num.toString(2);

  4. ary[2] = ary[2]+binary.slice(binary.length-6);

  5. ary[1] = ary[1]+binary.slice(binary.length-12,binary.length-6);

  6. ary[0] = ary[0]+binary.slice(0,binary.length-12).padStart(4,'0');

  7. let result = ary.join('');

  8. return parseInt(result,2).toString(16);

  9. }

  10. //万

  11. let result = transfer(0x4E07);//E4B887

1.11 文本编码

使用 NodeJS编写前端工具时,操作得最多的是文本文件,因此也就涉及到了文件编码的处理问题。我们常用的文本编码有 UTF8和 GBK两种,并且 UTF8文件还可能带有 BOM。在读取不同编码的文本文件时,需要将文件内容转换为JS使用的UTF8编码字符串后才能正常处理。

c unicode编码转换_unicode编码转换工具_php转换unicode编码

1.11.1 BOM的移除

BOM用于标记一个文本文件使用 Unicode编码,其本身是一个 Unicode字符(”uFEFF”),位于文本文件头部。在不同的 Unicode编码下,BOM字符对应的二进制字节如下:

  1. Bytes Encoding

  2. ----------------------------

  3. FE FF UTF16BE

  4. FF FE UTF16LE

  5. EF BB BF UTF8

因此,我们可以根据文本文件头几个字节等于啥来判断文件是否包含 BOM,以及使用哪种 Unicode编码。但是,BOM字符虽然起到了标记文件编码的作用,其本身却不属于文件内容的一部分,如果读取文本文件时不去掉 BOM,在某些使用场景下就会有问题。例如我们把几个JS文件合并成一个文件后,如果文件中间含有BOM字符,就会导致浏览器JS语法错误。因此,使用NodeJS读取文本文件时,一般需要去掉 BOM

  1. function readText(pathname) {

  2. var bin = fs.readFileSync(pathname);

  3. if (bin[0] === 0xEF && bin[1] === 0xBB && bin[2] === 0xBF) {

  4. bin = bin.slice(3);

  5. }

  6. return bin.toString('utf-8');

  7. }

1.11.2 GBK转UTF8

NodeJS支持在读取文本文件时,或者在 Buffer转换为字符串时指定文本编码,但遗憾的是, GBK编码不在 NodeJS自身支持范围内。因此,一般我们借助 iconv-lite这个三方包来转换编码。使用NPM下载该包后,我们可以按下边方式编写一个读取GBK文本文件的函数。

  1. let iconv = require('iconv-lite');

  2. function readGBKText(pathname) {

  3. var bin = fs.readFileSync(pathname);

  4. return iconv.decode(bin, 'gbk');

  5. }

———END———
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,一年会员只需98元,全站资源免费下载 点击查看详情
站 长 微 信: wxii2p22