기본 콘텐츠로 건너뛰기

UTF-8 글자마다 바이트 수 세기

UTF-8 문자열에서 문자 하나가 가지는 바이트 수를 구해보자. 요점은 글자 첫 바이트를 찾아 시작점부터 그곳까지 차이를 구하는 것이다.


#include <iostream>
#include <string>
using namespace std;

constexpr auto g_src("한글123ABCabc漢字!@#$^&*()한글123ABCabc漢字");

size_t
getUtf8Size(const uint8_t* ib, const uint8_t* ie)
{
  auto s(ib);

  while ( ++ib not_eq ie )
  {
    if ( ((*ib) bitand 0xc0) not_eq 0x80 ) break;
  }

  return size_t(ib-s);
}

size_t
getUtf8Size(const uint8_t* ib)
{
  auto s(ib);

  while ( *(++ib) )
  {
    if ( ((*ib) bitand 0xc0) not_eq 0x80 ) break;
  }

  return size_t(ib-s);
}

int
main(int argc, char* argv[])
{
  const uint8_t* ib(reinterpret_cast<const uint8_t*>(g_src));
  const uint8_t* ie(ib + strlen(g_src));

  size_t size;

  cout << "Type #1" << endl;
  while ( ib not_eq ie )
  {
    size = getUtf8Size(ib, ie);
    cout << string(reinterpret_cast<const char*>(ib), size) << ": " << size << endl;
    ib+=size;
  }

  cout << "Type #2" << endl;
  ib = reinterpret_cast<const uint8_t*>(g_src);
  while ( *ib )
  {
    size = getUtf8Size(ib);
    cout << string(reinterpret_cast<const char*>(ib), size) << ": " << size << endl;
    ib+=size;
  }
}


별 다를 것은 없고, 주어진 다음 글자에 0xc0(11000000)를 곱해 0x80(10000000)인지 판단한다.

댓글

이 블로그의 인기 게시물

탐색기에서 OneDrive 이 2개로 보이는 문제

왜 2개가 보이는지 모르겠지만, Registry 삭제하면 됨 HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Explorer\Desktop\NameSpace 하위 키에서 OneDrive 둘 중에 하나만 지워도 바로 반영됨. 참조:  https://answers.microsoft.com/en-us/msoffice/forum/all/duplicate-onedrives-in-file-explorer/49c935a6-287b-43a5-aed5-2dee2a1c1b22

절전을 깨운 녀석 알아내기

가끔씩 윈도우 절전을 깨우는 녀석이 있는데, 보통은 USB Keyboard/Mouse 이다. 요런 녀석들은 장치관리자에서 "이 장치를 사용하여 컴퓨터의 대기 모드를 종료할 수 있음"을 꺼주면 된다. 그래도 가끔씩 알 수 없는 이유로 켜졌을 경우, 관리자 권한으로 커맨드 창 열고 확인한다. C:\> powercfg -lastwake 절전 모드 해제 기록 카운트 - 1 절전 모드 해제 기록[0] 절전 모드 해제 소스 카운트 - 1 절전 모드 해제 소스[0] 종류: 장치 인스턴스 경로: XXX 이름: YYY 설명: ZZZ 제조업체: AAA