首页 > 试题广场 >

UTF-8 编码验证

[编程题]UTF-8 编码验证

热度指数：1140 时间限制：C/C++ 1秒，其他语言2秒空间限制：C/C++ 64M，其他语言128M
算法知识视频讲解

UTF-8 中的一个字符可能的长度为 1 到 4 字节，遵循以下的规则：
1. 对于 1 字节的字符，字节的第一位设为0，后面7位为这个符号的unicode码。
2. 对于 n 字节的字符 (n > 1)，第一个字节的前 n 位都设为1，第 n+1 位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。
这个是UTF-8编码的工作方式：

   Char. number range  |        UTF-8 octet sequence
      (hexadecimal)    |              (binary)
   --------------------+---------------------------------------------
   0000 0000-0000 007F | 0xxxxxxx
   0000 0080-0000 07FF | 110xxxxx 10xxxxxx
   0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
   0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

给定一个表示数据的整数数组，返回它是否为有效的 utf-8 编码。
注意：
输入是整数数组。只有每个整数的最低 8 个有效位用来存储数据。这意味着每个整数只表示 1 字节的数据。

输入描述:

多行字符串，每行字符串包括整数数字以及数字之间分隔符英文逗号（,）。每个整数只有最低8个有效位来存储数据，这就意味着每个整数只表示一个字节的数据。

输出描述:

对输入的每行数据均进行验证，并输出true或者false。true代表有效的utf-8编码，false则是无效的。

示例1

输入

197,130,1

输出

true

说明

data = [197, 130, 1], 表示 8 位的序列: 11000101 10000010 00000001.
返回 true 。
这是有效的 utf-8 编码，为一个2字节字符，跟着一个1字节字符。

示例2

输入

235,140,4

输出

false

说明

data = [235, 140, 4], 表示 8 位的序列: 11101011 10001100 00000100.
返回 false 。
前 3 位都是 1 ，第 4 位为 0 表示它是一个3字节字符。
下一个字节是开头为 10 的延续字节，这是正确的。
但第二个延续字节不以 10 开头，所以是不符合规则的。

算法知识视频讲解

咯嘣

。

发表于 2019-11-15 15:19:14 回复(0)

louis_ncu

//本地测试没有问题，但是AC=30%，望大佬改进下
//leetcode 393
#include <iostream>
#include <string>
#include <vector>
#include <algorithm>
#include <limits.h>
#include <stdlib.h>

using namespace std;
//字符串转二进制
string stringToBinary(string temp) {
    string res = "";
    int num = stoi(temp);
    for (int i = 7; i >= 0; i--) {
        res += ((num >> i) & 1) + '0';
    }
    return res;
}

void utf8Coding(string s) {
    vector<string> vec;
    string temp;
    string str_bin;
    int len = s.size();
    for (int i = 0; i < len; i++) {
        if (s[i] != ',') {
            temp += s[i];
        }
        else {
            str_bin = stringToBinary(temp);
            vec.push_back(str_bin);
            temp = "";
        }
    }
    str_bin = stringToBinary(temp);
    vec.push_back(str_bin);
    string res = "true";
    int cnt = 0;
    int vec_len = vec.size();
    int pos = 0; //记录1字节字符在原字符串中出现的位置
    bool flag = false;
    //判断为几字节字符，并统计个数
    for (int i = 0; i < vec_len; i++) {
        if (vec[i][0] == '0') {
            pos = i;
            continue;
        }
        //只有前4位有效
        for (int j = 0; j < 4; j++) {
            if (vec[i][j] == '1') {
                cnt++;
            }
            else {
                flag = true;
                break;
            }
        }
        if (flag) {
            break;
        }
    }
    //分两部分判断，第一部分是1字节字符前边的
    for (int i = 0; i < pos; i++) {
        if (vec[i][0] == '1' && vec[i][1] == '0') {
            continue;
        }
        else {
            res = "false";
        }
    }
    //1字节字符后边的
    for (int i = pos + 2; i < cnt; i++) {
        if (vec[i][0] == '1' && vec[i][1] == '0') {
            continue;
        }
        else {
            res = "false";
        }
    }
    cout << res << endl;
}

int main(){
    string s;
    while(cin>>s) {
        utf8Coding(s);
    }
    return 0;
}

编辑于 2020-05-11 23:15:19 回复(0)

景小楼

这题答案存在错误，举例，当utf码为四个字节时，首字节之后的任意一节为0xff，此时是非法的，但明显检测不出这个非法

发表于 2020-01-06 20:36:31 回复(0)

大厂offer呢

import java.util.*;

public class Main {

    public static void main(String[] args) {
        Scanner sc = new Scanner(System.in);

        while (sc.hasNext()) {

            String[] str = sc.next().split(",");
            short[] arr = new short[str.length];
            for (int i = 0; i < str.length; i++) {
                short n = Short.valueOf(str[i]);
                arr[i] = (short)(n & 0xFF);
            }

            boolean illegal = true;
            for (int i = 0; i < arr.length; i++) {
                short b = arr[i];
                if (b >= 0 && b < 128) {
                    continue;
                } else if (b >= 192 && b < 224) {
                    if (i + 1 >= arr.length) {
                        illegal = false;
                        break;
                    }

                    illegal = arr[i + 1] >= 128 && arr[i + 1] < 192;
                    if (!illegal)
                        break;

                    i += 1;
                } else if (b >= 224 && b < 240) {
                    if (i + 2 >= arr.length) {
                        illegal = false;
                        break;
                    }

                    illegal = arr[i + 1] >= 128 && arr[i + 1] < 192 && arr[i + 2] >= 128 && arr[i + 2] < 192;
                    if (!illegal)
                        break;

                    i += 2;
                } else if (b >= 240 && b < 248) {
                    if (i + 3 >= arr.length) {
                        illegal = false;
                        break;
                    }

                    illegal = arr[i + 1] >= 128 && arr[i + 1] < 192 && arr[i + 2] >= 128 && arr[i + 2] < 192 &&
                            arr[i + 3] >= 128 && arr[i + 3] < 192;

                    if (!illegal)
                        break;

                    i += 3;
                } else {
                    illegal = false;
                    break;
                }
            }

            System.out.println(illegal);
        }
    }
}

发表于 2019-08-15 14:26:30 回复(0)

提交观点

问题信息

进制转化数组小米集团模拟字符串搜狗前端工程师 2019

来自：搜狗2019秋招前端工...

上传者：小小

难度：

4条回答 24收藏 9414浏览

通过挑战的用户

查看代码

前端学习中

2022-08-26 11:11:58
MC枫少

2022-06-16 14:50:54
努力向上的小菜鸡

2022-05-02 19:35:52
up淋雨

2022-04-18 19:52:42
dyppp

2022-04-03 10:17:13

UTF-8 编码验证

输入描述:

输出描述:

输入

输出

说明

输入

输出

说明

问题信息

热门推荐

通过挑战的用户

相关试题