读书频道 > 网站 > 网页设计 > Software Design中文版03
UNIX 和字符编码
15-05-04    下载编辑
收藏    我要投稿   

本文所属图书 > Software Design中文版03

Software Design 是日本主流的计算机技术杂志,旨在帮助程序员更实时、深入地了解前沿技术,扩大视野,提升技能。内容侧重于网络、操作系统、开源软件和信息处理技术等。本期的主题为:sed AWK入门和Mac开发环立即去当当网订购

UNIX 本来就是在美国开发的OS,所以1 字节当然就是作为1 个字符来处理的。但是,像日文、中文这样有汉字的,可能会有几千甚至几万个文字,用1 个字节是不可能表示所有的文字的。因此就需要在用两个或多个字节来表示1 个字符的字符编码上下功夫了。

最初在UNIX 中使用最多的是一种叫作EUC(Extended UNIX Code)的字符编码。日语的平假名、片假名、代表性的汉字用两个字节表示,英文数字和日语也很容易进行区别,特别是多用于在UNIX 环境中表示日语的情况。最近兴起了一种叫作UTF-8的字符编码,Mac OS X 还有一部分Linux 发行版都采用UTF-8 作为标准字符编码。

以前,在UNIX 环境中使用诸如日语这样的多字节字符是非常困难的,甚至有些命令根本就不支持多字节字符。不过,现在通过给LANG 环境变量设置适当的值,通知系统和命令可以使用的字符编码,几乎所有的命令都可以正确地处理多字节字符。比如,在日语环境中字符编码采用UTF-8,只要把LANG指定为ja_UP.UTF-8,那么几乎所有的命令都可以正确地处理多字节字符。本特辑中提到的sed 和awk 当然也是可以正确地处理多字节字符的。

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:1.3 功能
下一篇:1.5 小结
相关文章
图文推荐
JavaScript网页动画设
1.9 响应式
1.8 登陆页式
1.7 主题式
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站