기본 콘텐츠로 건너뛰기

무엇이 다른가

GNU의 std::string은 같은 문자열을 공유한다.

보통 std::map에서 key로 std::string을 많이 쓰는데, 쓸 때마다 부담스러웠다. 이유는 key는 std::map에서 node를 만들 때 instance를 새로 만들고 복제하기 때문이다. 그러나 GNU의 std::string은 동일한 문자열은 같은 메모리영역을 공유하도록 만들었다. 따라서 복제가 이뤄져도 실제로 데이터를 복제하는 것이 아니라 내부 레퍼런스 카운터만 올라간다. /usr/include/c++/x.x.x/bits/basic_string.[h|tcc] 파일을 까보면 _M_is_shared()라는 private method가 assign을 비롯하여 여기저기 쓰여 있는 걸로 보아 확실하다. 이를 나름 증명해보자면, 아래 소스를 컴파일해서 돌려보자.

#include <iostream>
#include <string>
#include <map>
using namespace std;

map<string,void*> gMap;

int
main(int, char**)
{
    string str1("Hello, world!");
    string str2(str1);
    string str3; str3 = str1;
    string str4; str4.assign(str1);
    gMap.insert(map<string,void*>::value_type(str1, NULL));

    cout << "str1: " << (void*)str1.c_str() << endl;
    cout << "str2: " << (void*)str2.c_str() << endl;
    cout << "str3: " << (void*)str3.c_str() << endl;
    cout << "str4: " << (void*)str4.c_str() << endl;
    cout << "gMap.begin(): "
        << (void*)gMap.begin()->first.c_str() << endl;
    return 0;
}

역시나 char 배열을 어떻게 저장하느냐에 따라 c_str 구현이 달라지겠지만, 역시나 까봤더니 걍 포인터 리턴하는 것 말곤 없다. 여기서 위 값들이 동일하게 나온다면, 문자열 공간을 공유하는 것이라 하겠다.
$g++ -o shstr shstr.cpp
$./shstr
str1: 0x9be6014
str2: 0x9be6014
str3: 0x9be6014
str4: 0x9be6014
gMap.begin():
0x9be6014
참고로 실행환경은 libstdc++-3.4.4-2, libstdc++-4.1.2-12 모두 동일했다. str1~4가 모두 동일한 메모리 주소를 뱉는다는 것으로 실제로 복제가 일어나진 않는다는 것을 알았다. 소스를 좀더 까보면 데이터 변경이 일어날 때야 비로소 레퍼런스 카운트 떨구고 새로 메모리 주소를 할당 받아서 복제한 뒤 연산하는 것을 알 수 있다.


덧글:: object님 말씀대로 정확히 같은 문자열을 공유하는 것이 아니다. 복사와 대입을 할 때, CopyOnWrite철학으로 memory allocation과 memory copy(string copy)를 늦추는 행위를 할 뿐이다.

댓글

이 블로그의 인기 게시물

SQLite에서 파일 크기 줄이기

간단한 개인 프로젝트를 하고 있는데, SQLite DB파일 크기가 매우 커져서 테이블에 필요 없는 레코드를 날렸다. 그런데 날리고도 파일크기가 그대로라서 여기저기 뒤져보니 VACUUM 커맨드를 사용하란다. 사용법은 매우 간단하다. 그저 "VACUUM;"이라고 날려주면 동작한다. (참조: http://sqlite.org/lang_vacuum.html ) 다만, 동작이 매우 느려서 자주 쓸만한 것은 아니다. 실제로 100MB짜리 파일을 7KB로 줄이는데 수 분이 걸렸다. 소스를 봐야겠지만, DB를 EXPORT한 뒤에, 파일을 지우고 다시 IMPORT하는게 아닐까 하는 의구심이 든다. 매번 하기 귀찮으면 "PRAGMA auto_vacuum=1;"를 하면, 새로운 빈 페이지(DELETE나 DROP TABLE 같은...)가 생길 때마다, VACUUM을 실행한다. 다만, SQLite구조 문제로 테이블을 생성하기 전에 미리 날려야하는 안타까움이 있다. (참조: http://sqlite.org/pragma.html#pragma_auto_vacuum )

OpenSSL supports Multi-threading

내가 스레드를 별로 좋아하지 않는데, 별 수 없이 써야할 경우가 종종 있다. 그와 별개로 OpenSSL 쓰기를 좋아하는데, OpenSSL을 멀티 스레딩 환경에서 쓰면 자칫 알 수 없는 이유로 죽곤한다. 이유는 OpenSSL 각종 알고리즘엔진이 멀티 스레딩 환경을 고려하지 않은 엔진이라, 경합이 발생하여 충돌이 발생하기 때문이다. 참조: https://www.openssl.org/docs/crypto/threads.html 멀티 스레딩 지원은 0.9.5b-dev부터 지원하였으니, 이하 버전은 포기하자. (응?) (사실 그 전에도 약간은 지원했으나, CentOS5 기준 0.9.8이니, 이전 버전은 포기하는게 정답이다) 맨페이지를 보면 "crypto/threads/mttest.c 파일에 예제가 있어요 뿌잉뿌잉~"이라는데 나중에 찾아보기 귀찮으니 블로그에 옮겨 놓...으려고 봤는데, 주석도 길고 모든 OS에 대한 전처리기도 있고, C++11도 나왔는데 구닥다리 코드를 쓸 생각이 없으니 내 맘대로 다시 구성했다. #include <openssl/crypto.h> #define OPENSSL_THREAD_DEFINES #include <openssl/opensslconf.h> #if !defined(OPENSSL_THREADS) # error "OpenSSL version is not supported multi-thread" #endif // C++11 mutex support #include <mutex> // Global locks for OpenSSL static std::mutex* g_locks(nullptr); // Locking callback function for OpenSSL static void funcLock(int mode, int type, char* file, int line) { if ( mode bitand CRYPTO_LOCK ) g_locks[

Bash Array, Map 정리

Bash에서 Array, Map에 대한 정리. (매번 찾기 귀찮) 찾아보진 않았지만, Bash에서 Array든 Map이든 동일하게 Map(C++에서 Unordered Map)으로 동작하는 것 같다. 왜냐하면, Array의 Index가 연속하지 않아도 동작한다. 그저 Key가 0 이상의 정수인 Map이랑 비슷하게 동작한다. 예) 1, 2, 3, 9, 10 Array # 생성 declare -a empty_array declare -a ar=(haha hoho baba "long string haha hoho") # 접근 echo "ar[0]=${ar[0]}" echo "all as array=${ar[@]}" # 큰따옴표 안에서 각 원소를 따로따로 전달한다. echo "all as one=${ar[*]}" # 큰따옴표 안에서 각 원소를 문자열 하나로 합쳐 전달한다. echo "indexes=${!ar[@]}" echo "indexes=${!ar[*]}" echo "length=${#ar[@]}" echo "length=${#ar[*]}" echo "last=${ar[-1]}" echo "last=${ar[@]: -1}" # 콜론 뒤에 빈 칸이 꼭 필요하다. 옛 방식 # 현재 상황 declare -p ar #(출력) declare -a ar=([0]="haha" [1]="hoho" [2]="baba" [3]="long string haha hoho") ar[100]=hello # 인덱스를 건너 뛰어도 동작한다. declare -p ar #(출력) declare -a ar=([0]="haha" [1]="hoho" [2]="baba" [3]=&