linu中显示中文乱码的问题

资源描述

《linu中显示中文乱码的问题》由会员分享，可在线阅读，更多相关《linu中显示中文乱码的问题（10页珍藏版）》请在金锄头文库上搜索。

1、linux 中显示中文乱码的问题http:/ 2010-05-11 09:154586人阅读评论（0）收藏举报由于在 windows 下默认是 gb 编码，而我的 vim 默认是 utf-8（gedit 默认也是 utf-8）,所以打开会成乱码。修改了一下配置文件，使vi支持gb编码就好了。$vi /.vimrclet &termencoding=&encodingset fileencodings=utf-8,gbk$:wq再次打开vi,显示就正常了。如果你需要在 linux 下面用到 windows 下的文件，拷贝上去后经常发现中文显示乱码。原因是Windows中默认的文件格式是GBK

2、（gb2312）,而Linux 一般都是 UTF-8。比较繁琐的方法是在windows下用程序把内容转换为utf-8编码格式的, 但是相当麻烦，而且遇到一个文件转一回。下面介绍一下，在 Linux 中如何一劳永逸的解决这个问题,查看文件的编码及如何进行对文件进行编码转换。查看文件编码在 Linux 中查看文件编码可以通过以下几种方式:1. 在Vim中可以直接查看文件编码:set fileencoding即可显示文件编码格式。文件编码转换1. 如果你只是想查看其它编码格式的文件或者想解决用Vim查看文件乱码的问题,那么你可以在/.vimrc （在/etc目录下面）文件中添加以下内容：set

3、 encoding=utf-8 fileencodings=ucs-bom,utf-8,cp936其中encoding是vim的默认显示编码格式，fileencodings是vim打开文件时检测的编码格式,存在这种类型的编码即转换为 utf-8 编码。这样，就可以让vim自动识别文件编码（可以自动识别UTF-8或者GBK编码的文件）,其实就是依照 fileencodings 提供的编码列表尝试,如果没有找到合适的编码，就用latin-1（ASCII）编码打开。2. 在 Vim 中直接进行转换文件编码,比如将一个文件转换成 utf-8 格式（不好用） :set fileencoding=

4、utf-83.iconv转换，iconv的命令格式如下：（未用） iconv -f encoding -t encoding inputfile 比如将一个 UTF-8 编码的文件转换成 GBK 编码 iconv -f GBK -t UTF-8 file1 -o file2文件名编码转换:从Linux往windows拷贝文件或者从windows往Linux拷贝文件，有时会出现中文文件名乱码的情况，出现这种问题的原因是因为， windows 的文件名中文编码默认为GBK,而Linux中默认文件名编码为UTF&由于编码不一致，所以导致了文件名乱码的问题，解决这个问题需要对文件名进行转码。在

5、 Linux 中专门提供了一种工具 convmv 进行文件名编码的转换，可以将文件名从 GBK 转换成 UTF-8 编码, 或者从 UTF-8 转换到 GBK。首先看一下你的系统上是否安装了 convmv, 如果没安装的话用在htt p:/www.j3e.de/linux/convmv/convmv-1.14 .t ar.gz 下载，然后在windows下面解压缩用winscp上传真个目录，之后进入此目录执行 makeinstall 命令，之后用 convmv 命令测试是否安装成功，若显示一些命令提示则表示成功了。安装。下面看一下 convmv 的具体用法： convmv -f 源编码

6、-t 新编码选项文件名常用参数：-r 递归处理子文件夹-notest 真正进行操作，请注意在默认情况下是不对文件进行真实操作的，而只是试验。-list 显示所有支持的编码-unescap 可以做一下转义，比如把%20 变成空格比如我们有一个 utf8 编码的文件名，转换成 GBK 编码，命令如下： convmv -f UTF-8 -t GBK -notest utf8 编码的文件名这样转换以后utf8编码的文件名会被转换成GBK编码（只是文件名编码的转换，文件内容不会发生变化） vim 编码方式的设置和所有的流行文本编辑器一样， Vim 可以很好的编辑各种字符编码的文件，这当然

7、包括 UCS-2、UTF-8 等流行的 Unicode 编码方式。然而不幸的是，和很多来自 Linux 世界的软件一样，这需要你自己动手设置。Vim 有四个跟字符编码方式有关的选项， encoding、fileencoding、 fileencodings、termencoding （这些选项可能的取值请参考 Vim 在线帮助:help encoding-names），它们的意义如下：* encoding: Vim 内部使用的字符编码方式，包括 Vim 的 buffer （缓冲区）、菜单文本、消息文本等。默认是根据你的 locale 选择. 用户手册上建议只在 .vimrc 中改变它的

8、值，事实上似乎也只有在 .vimrc 中改变它的值才有意义。你可以用另外一种编码来编辑和保存文件，如你的vim的encoding为utf-&所编辑的文件采用cp936编码,vim会自动将读入的文件转成utf-8（vim的能读懂的方式），而当你写入文件时，又会自动转回成cp936 （文件的保存编码）. *fileencoding:Vim 中当前编辑的文件的字符编码方式， Vim 保存文件时也会将文件保存为这种字符编码方式（不管是否新文件都如此）。* fileencodings: Vim自动探测fileencoding的顺序列表，启动时会按照它所列出的字符编码方式逐一探测即将打开的文件

9、的字符编码方式，并且将 fileencoding 设置为最终探测到的字符编码方式。因此最好将 Unicode 编码方式放到这个列表的最前面，将拉丁语系编码方式 latin1 放到最后面。*termencoding:Vim 所工作的终端（或者 Windows 的 Console 窗口）的字符编码方式。如果 vim 所在的 term 与 vim 编码相同，则无需设置。如其不然，你可以用 vim 的 termencoding 选项将自动转换成 term 的编码. 这个选项在 Windows 下对我们常用的 GUI 模式的 gVim 无效，而对 Console 模式的 Vim 而言就是 Wi

10、ndows 控制台的代码页，并且通常我们不需要改变它。好了，解释完了这一堆容易让新手犯糊涂的参数，我们来看看 Vim 的多字符编码方式支持是如何工作的。1. Vim启动，根据.vimrc中设置的encoding的值来设置buffer、菜单文本、消息文的字符编码方式。2. 读取需要编辑的文件，根据 fileencodings 中列出的字符编码方式逐一探测该文件编码方式。并设置 fileencoding 为探测到的，看起来是正确的（注 1）字符编码方式。3. 对比 fileencoding 和 encoding 的值，若不同则调用 iconv 将文件内容转换为 encoding 所描述

11、的字符编码方式，并且把转换后的内容放到为此文件开辟的 buffer 里，此时我们就可以开始编辑这个文件了。注意，完成这一步动作需要调用外部的iconv.dll（注2），你需要保证这个文件存在于$VIMRUNTIME或者其他列在 PATH 环境变量中的目录里。4. 编辑完成后保存文件时，再次对比 fileencoding 和 encoding 的值。若不同，再次调用 iconv 将即将保存的 buffer 中的文本转换为 fileencoding 所描述的字符编码方式，并保存到指定的文件中。同样，这需要调用 iconv.dll 由于 Unicode 能够包含几乎所有的语言的字符，而且

12、Unicode 的 UTF-8 编码方式又是非常具有性价比的编码方式（空间消耗比 UCS-2 小），因此建议 encoding的值设置为utf-8。这么做的另一个理由是encoding设置为utf-8 时， Vim 自动探测文件的编码方式会更准确（或许这个理由才是主要的 ;）。我们在中文 Windows 里编辑的文件，为了兼顾与其他软件的兼容性，文件编码还是设置为 GB2312/GBK 比较合适，因此 fileencoding 建议设置为 chinese （chinese是个别名，在Unix里表示gb2312，在Windows里表示cp936，也就是 GBK 的代码页）。vim 中

13、编辑不同编码的文件时需要注意的一些地方此文讲解的是 vim 编辑多字节编码文档（中文）所要了解的一些基础知识，注意其没有涉及gvim，纯指字符终端下的vim。vim 编码方面的基础知识：1，存在3个变量：encoding该选项使用于缓冲的文本（你正在编辑的文件），寄存器，Vim脚本文件等等。你可以把encoding选项当作是对Vim内部运行机制的设定。fileencoding该选项是vim写入文件时采用的编码类型。termencoding该选项代表输出到客户终端（Term）采用的编码类型。2，此3个变量的默认值：encoding与系统当前locale相同，所以编辑文件的时候要考虑当前loca

14、le，否则要设置的东西就比较多了。fileencoding vim打开文件时自动辨认其编码，fileencoding就为辨认的值。为空则保存文件时采用encoding的编码，如果没有修改encoding，那值就是系统当前locale 了。termencoding默认空值，也就是输出到终端不进行编码转换。由此可见，编辑不同编码文件需要注意的地方不仅仅是这3个变量，还有系统当前locale和、文件本身编码以及自动编码识别、客户运行vim的终端所使用的编码类型3个关键点，这3个关键点影响着3个变量的设定。如果有人问：为什么我用vim打开中文文档的时候出现乱码？答案是不确定的，原因上面已经

15、讲了，不搞清楚这3个关键点和这3个变量的设定值，出现乱码是正常的，倒是不出现乱码那反倒是凑巧的。再来看一下常见情况下这三个关键点的值以及在这种情况下这3个变量的值：1， locale目前大部分Linux系统已经将utf-8作为默认locale 了，不过也有可能不是，例如有些系统使用中文locale zh_CN.GB18030。在locale为utf-8 的情况下，启动vim后encoding将会设置为utf-8,这是兼容性最好的方式，因为内部处理使用utf-8的话，无论外部存储编码为何都可以进行无缺损转换。 locale决定了 vim内部处理数据的编码，也就是encoding。2，文件的编码以及自动编码识别-这方面牵扯到各种编码的规则，就不一一细讲了。但需要明白的是，文件编码类型并不是保存在文件内的，也就是说没有任何描述性的字段来记录文档是何种编码类型的。因此我们在编辑文档的时候，要么必须知道这文档保存时是以什么编码保存的，要么通过另外的一些手段来断定编码类型，这另外的手段，就是通过某些编码的码表特征来断定，例如每个字符占用的字节数，每个字符的ascii值是否都大于某个字段来断定这个文件属于何种编码。这种方式vim也使用了，这就是vim的自动编码识别机制了。但这种机制由于编码各式各样，不可能每种编码都有显著的特征来辨别，所以是不可能10

展开阅读全文