Дуже сумна балада про string і українську абетку

1 Тема від Teg Miles 20.05.2026 12:28:00

Teg Miles
Користувач
Поза форумом

Дата реєстрації: 20.01.2016
Повідомлень: 638

: 138

Тема: Дуже сумна балада про string і українську абетку

Мені треба було отримати останню літеру зі змішаного рядка (українська абетка + цифри + деякі друковані символи).
Тому я наївно припустив, що метод back() із цим цілком впорається.
А виявилося, що він повертає останній байт, а не останню літеру.
Якщо це латинська абетка, то літера має 1 байт і все працює як слід. Якщо українська, 2 байти, ви отримаєте якесь число, значення половини літери в байтах.
Тому довелося робити ось так:

std::string last_utf8_char(const std::string& s)
{
    if (s.empty())
        return "";
    size_t pos = s.size() - 1;
    // Skip continuation bytes (0x80 to 0xBF)
    auto mask_for_bit_continuation { 0xC0 }; // check if byte is a beginning
    auto not_begin_of_symbol { 0x80 }; // not a beginning of a symbol
    while (pos > 0
           && (static_cast<unsigned char>(s[pos]) & mask_for_bit_continuation)
               == not_begin_of_symbol) {
        pos--;
    }
    return s.substr(pos);
}

Хтось знає кращий спосіб зробити це? Хто які типи даних для рядків з нелатинською абеткою використовує (wstring, u8string)?

2 Відповідь від leofun01 20.05.2026 20:50:20

leofun01
Replace Team
Поза форумом

Дата реєстрації: 15.03.2014
Повідомлень: 3 523

Репутація

: 2786

Re: Дуже сумна балада про string і українську абетку

#include <iostream>
#include <string>

void print(std::wstring const &s) {
    std::wcout << s << " : "
        << s[s.length() - 1] // C++11
        // << s.back()       // C++20
        << "\r\n";
}
int main() {
    print(L"алфавіт");
    print(L"абетка");
    return 0;
}

gcc 16 & clang 22 написав:

alfavit : t
abetka : a

Latynkoju tse tezh ukrajinska.

Func:

#include <string>

wchar_t get_last_wchar(std::wstring const &s) {
    return s.back();           // C++20
    // return *s.crbegin();    // C++11
    // return *(s.cend() - 1); // C++11
}

Подякували: Teg Miles1

leofun01 вебсайт

3 Відповідь від Teg Miles 21.05.2026 08:43:21

Teg Miles
Користувач
Поза форумом

Дата реєстрації: 20.01.2016
Повідомлень: 638

Репутація

: 138

Re: Дуже сумна балада про string і українську абетку

leofun01 написав:

#include <iostream>
#include <string>

void print(std::wstring const &s) {
    std::wcout << s << " : "
        << s[s.length() - 1] // C++11
        // << s.back()       // C++20
        << "\r\n";
}
int main() {
    print(L"алфавіт");
    print(L"абетка");
    return 0;
}

gcc 16 & clang 22 написав:

alfavit : t
abetka : a

Latynkoju tse tezh ukrajinska.

Func:

#include <string>

wchar_t get_last_wchar(std::wstring const &s) {
    return s.back();           // C++20
    // return *s.crbegin();    // C++11
    // return *(s.cend() - 1); // C++11
}

А чому const після типу даних, а не перед ним?

Подякували: leofun011

4 Відповідь від leofun01 21.05.2026 17:11:21

leofun01
Replace Team
Поза форумом

Дата реєстрації: 15.03.2014
Повідомлень: 3 523

Репутація

: 2786

Re: Дуже сумна балада про string і українську абетку

Teg Miles написав:

А чому const після типу даних, а не перед ним?

Працюйучи з вказівниками

int n = 0;
int *n_ptr = &n;
int **n_ptr_ptr = &n_ptr;

читати такий код

int const n = 0;
int const *const n_ptr = &n;
int const *const *const n_ptr_ptr = &n_ptr;

вам буде зручніше ніж такий

const int n = 0;
const int *const n_ptr = &n;
const int *const *const n_ptr_ptr = &n_ptr;

хотів зказати я, а потім згадав про constexpr в C++

static constexpr int n = 0;
static constexpr int const *n_ptr = &n;
static constexpr int const *const *n_ptr_ptr = &n_ptr;

і він швидко поставив мене на місце.

Поки це ваш код, то пишіть як вам зручно.
А коли будете дописувати проджекти для інших, то там будуть code-style документи, де буде вказано як треба.

Подякували: Teg Miles1

leofun01 вебсайт

Ласкаво просимо!

Повідомлення: 4

1 Тема від Teg Miles 20.05.2026 12:28:00

Тема: Дуже сумна балада про string і українську абетку

2 Відповідь від leofun01 20.05.2026 20:50:20

Re: Дуже сумна балада про string і українську абетку

3 Відповідь від Teg Miles 21.05.2026 08:43:21

Re: Дуже сумна балада про string і українську абетку

4 Відповідь від leofun01 21.05.2026 17:11:21

Re: Дуже сумна балада про string і українську абетку

Повідомлення: 4

Переглядають тему: 1 гість, 0 користувачів