기본 콘텐츠로 건너뛰기

GNU의 std::string은 같은 문자열을 공유한다.

보통 std::map에서 key로 std::string을 많이 쓰는데, 쓸 때마다 부담스러웠다. 이유는 key는 std::map에서 node를 만들 때 instance를 새로 만들고 복제하기 때문이다. 그러나 GNU의 std::string은 동일한 문자열은 같은 메모리영역을 공유하도록 만들었다. 따라서 복제가 이뤄져도 실제로 데이터를 복제하는 것이 아니라 내부 레퍼런스 카운터만 올라간다. /usr/include/c++/x.x.x/bits/basic_string.[h|tcc] 파일을 까보면 _M_is_shared()라는 private method가 assign을 비롯하여 여기저기 쓰여 있는 걸로 보아 확실하다. 이를 나름 증명해보자면, 아래 소스를 컴파일해서 돌려보자.

#include <iostream>
#include <string>
#include <map>
using namespace std;

map<string,void*> gMap;

int
main(int, char**)
{
    string str1("Hello, world!");
    string str2(str1);
    string str3; str3 = str1;
    string str4; str4.assign(str1);
    gMap.insert(map<string,void*>::value_type(str1, NULL));

    cout << "str1: " << (void*)str1.c_str() << endl;
    cout << "str2: " << (void*)str2.c_str() << endl;
    cout << "str3: " << (void*)str3.c_str() << endl;
    cout << "str4: " << (void*)str4.c_str() << endl;
    cout << "gMap.begin(): "
        << (void*)gMap.begin()->first.c_str() << endl;
    return 0;
}

역시나 char 배열을 어떻게 저장하느냐에 따라 c_str 구현이 달라지겠지만, 역시나 까봤더니 걍 포인터 리턴하는 것 말곤 없다. 여기서 위 값들이 동일하게 나온다면, 문자열 공간을 공유하는 것이라 하겠다.
$g++ -o shstr shstr.cpp
$./shstr
str1: 0x9be6014
str2: 0x9be6014
str3: 0x9be6014
str4: 0x9be6014
gMap.begin():
0x9be6014
참고로 실행환경은 libstdc++-3.4.4-2, libstdc++-4.1.2-12 모두 동일했다. str1~4가 모두 동일한 메모리 주소를 뱉는다는 것으로 실제로 복제가 일어나진 않는다는 것을 알았다. 소스를 좀더 까보면 데이터 변경이 일어날 때야 비로소 레퍼런스 카운트 떨구고 새로 메모리 주소를 할당 받아서 복제한 뒤 연산하는 것을 알 수 있다.


덧글:: object님 말씀대로 정확히 같은 문자열을 공유하는 것이 아니다. 복사와 대입을 할 때, CopyOnWrite철학으로 memory allocation과 memory copy(string copy)를 늦추는 행위를 할 뿐이다.

댓글

이 블로그의 인기 게시물

Bash Array, Map 정리

Bash에서 Array, Map에 대한 정리. (매번 찾기 귀찮) 찾아보진 않았지만, Bash에서 Array든 Map이든 동일하게 Map(C++에서 Unordered Map)으로 동작하는 것 같다. 왜냐하면, Array의 Index가 연속하지 않아도 동작한다. 그저 Key가 0 이상의 정수인 Map이랑 비슷하게 동작한다. 예) 1, 2, 3, 9, 10 Array # 생성 declare -a empty_array declare -a ar=(haha hoho baba "long string haha hoho") # 접근 echo "ar[0]=${ar[0]}" echo "all as array=${ar[@]}" # 큰따옴표 안에서 각 원소를 따로따로 전달한다. echo "all as one=${ar[*]}" # 큰따옴표 안에서 각 원소를 문자열 하나로 합쳐 전달한다. echo "indexes=${!ar[@]}" echo "indexes=${!ar[*]}" echo "length=${#ar[@]}" echo "length=${#ar[*]}" echo "last=${ar[-1]}" echo "last=${ar[@]: -1}" # 콜론 뒤에 빈 칸이 꼭 필요하다. 옛 방식 # 현재 상황 declare -p ar #(출력) declare -a ar=([0]="haha" [1]="hoho" [2]="baba" [3]="long string haha hoho") ar[100]=hello # 인덱스를 건너 뛰어도 동작한다. declare -p ar #(출력) declare -a ar=([0]="haha" [1]="hoho" [2]="baba" [3]=&

설치한 패키지에서 RPM 추출하기

오래된 패키지를 관리할 저장소가 없어졌고, 기존 패키지로 다른 서버를 세팅해야할 일이 생겼다면 RPM의 리패키지 기능을 이용해보자. $ rpm -e --repackage [PACKAGE_NAME] 위와 같이 리패키지하면, /var/spool/repackage/ 에 생성한 RPM파일이 있다. :-)