您现在的位置是：亿华云 > 数据库

Google开源Java字符编码检测工具介绍

亿华云2025-10-02 18:56:47【数据库】2人已围观

简介背景产品经理要求上传文件到服务器，但是文件没有模板，文件的编码格式不定，因此不能通过指定的编码格式解析文件，否则会出现乱码。文件编码识别1）UTF-8 BOM编码的文件，前3个字节转换成10进制数后分

产品经理要求上传文件到服务器，开源但是字符文件没有模板，文件的编码编码格式不定，因此不能通过指定的检测介绍编码格式解析文件，否则会出现乱码。工具

（1）UTF-8 BOM编码的开源文件，前3个字节转换成10进制数后分别是字符：-17、-69、编码-65。检测介绍

（2）UTF-16BE BOM编码的工具文件，前2个字节转换成10进制数后分别是开源：-2、-1。字符

（3）UTF-16LE BOM编码的编码文件，前2个字节转换成10进制数后分别是检测介绍：-1、亿华云-2。工具

因此，这三种编码格式的文件检测起来比较简单，只需要拿到文件的前三个字节，然后根据上面的规则就可以确定文件是什么编码。问题是这种检测方式只能区分UTF-8 BOM、UTF-16BE BOM和UTF-16LE BOM编码的文件，不能区分UTF-8和GBK编码的文件。

需要引入Maven依赖，Maven坐标如下：

<dependency> <groupId> com.googlecode.juniversalchardet </groupId> <artifactId>juniversalchardet</artifactId> <version>1.0.3</version> </dependency>

Google字符编码检测工具Java代码示例，目前来看检查UTF-8和GBK编码没有问题，但是其它编码存在问题，由于上传的文件只有中文和英文，服务器托管因此稍微做了点兼容性处理，当编码获取错误时，默认取GBK编码。编码检测工具在生产环境运行了一段时间，目前来看没发现什么问题。

由于上传的文件只有中文和英文，在生产环境运行了一段时间，目前来看是满足要求的。比如Google的字符编码检测工具会返回WINDOWS-1252这样的编码格式，这种默认用GBK编码就可以。还有一些检测不出来的编码格式，返回null，这种也用默认的GBK就行。

很赞哦!（789）