기본 콘텐츠로 건너뛰기

Java8 Stream List to Map

UTF-8 글자마다 바이트 수 세기

UTF-8 문자열에서 문자 하나가 가지는 바이트 수를 구해보자. 요점은 글자 첫 바이트를 찾아 시작점부터 그곳까지 차이를 구하는 것이다.


#include <iostream>
#include <string>
using namespace std;

constexpr auto g_src("한글123ABCabc漢字!@#$^&*()한글123ABCabc漢字");

size_t
getUtf8Size(const uint8_t* ib, const uint8_t* ie)
{
  auto s(ib);

  while ( ++ib not_eq ie )
  {
    if ( ((*ib) bitand 0xc0) not_eq 0x80 ) break;
  }

  return size_t(ib-s);
}

size_t
getUtf8Size(const uint8_t* ib)
{
  auto s(ib);

  while ( *(++ib) )
  {
    if ( ((*ib) bitand 0xc0) not_eq 0x80 ) break;
  }

  return size_t(ib-s);
}

int
main(int argc, char* argv[])
{
  const uint8_t* ib(reinterpret_cast<const uint8_t*>(g_src));
  const uint8_t* ie(ib + strlen(g_src));

  size_t size;

  cout << "Type #1" << endl;
  while ( ib not_eq ie )
  {
    size = getUtf8Size(ib, ie);
    cout << string(reinterpret_cast<const char*>(ib), size) << ": " << size << endl;
    ib+=size;
  }

  cout << "Type #2" << endl;
  ib = reinterpret_cast<const uint8_t*>(g_src);
  while ( *ib )
  {
    size = getUtf8Size(ib);
    cout << string(reinterpret_cast<const char*>(ib), size) << ": " << size << endl;
    ib+=size;
  }
}


별 다를 것은 없고, 주어진 다음 글자에 0xc0(11000000)를 곱해 0x80(10000000)인지 판단한다.

댓글

이 블로그의 인기 게시물

Bash Array, Map 정리

Bash에서 Array, Map에 대한 정리. (매번 찾기 귀찮) 찾아보진 않았지만, Bash에서 Array든 Map이든 동일하게 Map(C++에서 Unordered Map)으로 동작하는 것 같다. 왜냐하면, Array의 Index가 연속하지 않아도 동작한다. 그저 Key가 0 이상의 정수인 Map이랑 비슷하게 동작한다. 예) 1, 2, 3, 9, 10 Array # 생성 declare -a empty_array declare -a ar=(haha hoho baba "long string haha hoho") # 접근 echo "ar[0]=${ar[0]}" echo "all as array=${ar[@]}" # 큰따옴표 안에서 각 원소를 따로따로 전달한다. echo "all as one=${ar[*]}" # 큰따옴표 안에서 각 원소를 문자열 하나로 합쳐 전달한다. echo "indexes=${!ar[@]}" echo "indexes=${!ar[*]}" echo "length=${#ar[@]}" echo "length=${#ar[*]}" echo "last=${ar[-1]}" echo "last=${ar[@]: -1}" # 콜론 뒤에 빈 칸이 꼭 필요하다. 옛 방식 # 현재 상황 declare -p ar #(출력) declare -a ar=([0]="haha" [1]="hoho" [2]="baba" [3]="long string haha hoho") ar[100]=hello # 인덱스를 건너 뛰어도 동작한다. declare -p ar #(출력) declare -a ar=([0]="haha" [1]="hoho" [2]="baba" [3]=&

Linux에서 find결과를 시간 순서대로 정렬하기

때때로 어떤 디렉토리 내용을 수정시간 순서(보통 역순)대로 정렬할 필요가 있다. 그럴 때 사용할 수 있는 옵션이 -printf 옵션이다. %T+는 마지막 수정시간을 YYYY-MM-DD+HH:MM:SS.ssssssssss 형태로 출력한다. 참조: https://man7.org/linux/man-pages/man1/find.1.html find /path/something/ -mindepth 1 -maxdepth 1 -type d \ -name 'myapp-*' -printf "%T+\t%p\n" | \ sort -r | awk -F'\t' '{print $2}'