1 Востаннє редагувалося Smolenkov_BN (24.11.2017 10:13:20)

Тема: Транслітерація букв українського алфавіту латиницею для CMS

Занадто часто в адресах сайтів України можна спостерігати транслітерацію букв українського алфавіту латиницею на основі саморобного домашнього суржику невиясненого походження. Тому має сенс усім українським розробникам CMS мати під рукою довідники транслітерації.

Усі раніше прийняті міжнародні стандарти транслітерації можна викачати на сайті
- Transliteration of Non-Roman Scripts
A collection of transliteration and transcription tables for various writing systems.
http://transliteration.eki.ee/
у розділі "Languages/Scripts". Зокрема, усі міжнародні стандарти транслітерації букв українського алфавіту можна подивитися у файлі "Ukrainian.pdf".

Проте офіційну транслітерацію було затверджено Постановою КМУ від 27 січня 2010 року №55
http://zakon0.rada.gov.ua/laws/show/55-2010-п
Вона має деякі відмінності від раніше прийнятих міжнародних стандартів. Ця транслітерація офіційно затверджена. Отже, саме нею і повинні користуватися розробники CMS.

Один з готових варіантів практичної реалізації офіційної транслітерації букв українського алфавіту латиницею для CMS можна узяти тут
https://github.com/fre5h/transliteration

Подякували: NaharD, /KIT\2

2

Re: Транслітерація букв українського алфавіту латиницею для CMS

О, дякую. не знав про "Позиція у слові". У себе на сайті повторив транслітерацію, що на https://dmsu.gov.ua/services/transliteration.html, але цей момент так і не докумекав.

3

Re: Транслітерація букв українського алфавіту латиницею для CMS

Це якщо згоден з офіційним стандартом)

Подякували: 0xDADA11C7, VaultDweller2

4

Re: Транслітерація букв українського алфавіту латиницею для CMS

Офіційна транслітерація на практиці створює забагато неоднозначностей — загублені м'які знаки, плутанина і/ї/й тощо. З такого трансліту відтворити кириличний оригінал не завжди можливо — відповідно, неможливо гарантувати, що дві статті з різними кириличними назвами не називатимуться латиницею ідентично. Звідси й потреба в альтернативних варіантах, бо єдине призначення офіційного трансліту — записати паспортні дані людини так, щоб іноземець, що знає англійську, міг дуже приблизно відтворити їх вимову.

Подякували: 0xDADA11C71

5

Re: Транслітерація букв українського алфавіту латиницею для CMS

Smolenkov_BN
Ви хоч почитайте про українську латинку, ознайомтеся з попереднім 200+ роками досвіду до чинних правил транслітерації.

6

Re: Транслітерація букв українського алфавіту латиницею для CMS

0xDADA11C7 написав:

Smolenkov_BN
Ви хоч почитайте про українську латинку, ознайомтеся з попереднім 200+ роками досвіду до чинних правил транслітерації.

Недоліком власне українських латинок, як правило, є присутність у них додаткових символів поза базовим ASCII — тобто, та ж технічна проблема (хоч і в меншій кількості, бо охоплює лише частину алфавіту), через яку й виникає потреба автоматичної транслітерації з кирилиці — щоб URL мали читабельний вигляд, а не були засмічені кодами символів. Для поставленої задачі ідеальною була б система, що використовує лише літери базової латиниці й дозволяє конвертувати український текст в обох напрямках без втрат.

7

Re: Транслітерація букв українського алфавіту латиницею для CMS

Для поставленої задачі ідеальною була б система, що використовує лише літери базової латиниці й дозволяє конвертувати український текст в обох напрямках без втрат.

Така ідеальна система призводить до невдоволення гіпстерів власне українською латиникою, бо невідповідність української латиники англійській мові для них немов пекельні муки.

8 Востаннє редагувалося Vo_Vik (24.11.2017 21:47:26)

Re: Транслітерація букв українського алфавіту латиницею для CMS

На гішпанську треба орієнтуватись)

Подякували: 0xDADA11C71

9 Востаннє редагувалося Vo_Vik (24.11.2017 21:47:36)

Re: Транслітерація букв українського алфавіту латиницею для CMS

і іпштерів нафіг.

Подякували: 0xDADA11C71

10

Re: Транслітерація букв українського алфавіту латиницею для CMS

Було би кльово мати такий трасліт на основі базової латинки який би однозначно описував звуки всіх світових альфавітів, ото би була задачка)

11 Востаннє редагувалося iovchynnikov (24.11.2017 23:21:52)

Re: Транслітерація букв українського алфавіту латиницею для CMS

P.Y. написав:

Недоліком власне українських латинок, як правило, є присутність у них додаткових символів поза базовим ASCII — тобто, та ж технічна проблема

Перепрошую, а яка тут технічна проблема? UTF-8 існує від початку 1990-х, RFC - 2003. Усі сучасні пристрої підтримують UTF-8 на 100%.

Smolenkov_BN написав:

Занадто часто в адресах сайтів України можна спостерігати транслітерацію букв українського алфавіту латиницею на основі саморобного домашнього суржику невиясненого походження.

В переважній більшості, Вами названий суржик - просто транслітератор російської :)

Необхідність робити транслітерацію URL в 2017 теж питання дискусійне. Сучасні переглядачі теж підтримують UTF-8 в адресах, як, власне, й бази даних (маппінґ).

Подякували: 0xDADA11C71

12

Re: Транслітерація букв українського алфавіту латиницею для CMS

iovchynnikov написав:
P.Y. написав:

Недоліком власне українських латинок, як правило, є присутність у них додаткових символів поза базовим ASCII — тобто, та ж технічна проблема

Перепрошую, а яка тут технічна проблема? UTF-8 існує від початку 1990-х, RFC - 2003. Усі сучасні пристрої підтримують UTF-8 на 100%.

Smolenkov_BN написав:

Занадто часто в адресах сайтів України можна спостерігати транслітерацію букв українського алфавіту латиницею на основі саморобного домашнього суржику невиясненого походження.

В переважній більшості, Вами названий суржик - просто транслітератор російської :)

Необхідність робити транслітерацію URL в 2017 теж питання дискусійне. Сучасні переглядачі теж підтримують UTF-8 в адресах, як, власне, й бази даних (маппінґ).

Але, фактично, оте ваше utf-8 в URL насправді являє собою або URL-кодування (тобто, %NN замість кожного байта кількабайтних представлень символів) у шляху та параметрах, або Punycode в доменних іменах — навіть якщо браузер візуалізує юнікодівські символи, при копіюванні адреси в буфер може надходити отой людинонепрочитуваний код. Звісно, питання смаку (скажімо, Вікіпедія спокійно обходиться без подібних транслітерацій), але в багатьох CMS хорошим тоном вважається транслітерація.

Подякували: leofun011

13 Востаннє редагувалося Smolenkov_BN (27.11.2017 10:33:31)

Re: Транслітерація букв українського алфавіту латиницею для CMS

0xDADA11C7 написав:

Smolenkov_BNВи хоч почитайте про українську латинку, ознайомтеся з попереднім 200+ роками досвіду до чинних правил транслітерації.

Мою суб'єктивну думку я можу висловити у тому випадку, якщо з'явиться необхідність коригування офіційної думки. Думається, що ми усі тут є законослухняними громадянами України. Якщо у Вас є зв'язки в КМУ, то давайте приведемо в "історичний порядок" вищезгадану Постанову. Я не проти безкоштовно попрацювати на благо України.

14

Re: Транслітерація букв українського алфавіту латиницею для CMS

Та транслітерація затвердженна постановою кабінету міністрів, і стосується роботи органів державної влади. Так що причому тут законослухняні громадяни я не зрозумів.

Подякували: 0xDADA11C71

15

Re: Транслітерація букв українського алфавіту латиницею для CMS

Smolenkov_BN написав:

Мою суб'єктивну думку я можу висловити у тому випадку, якщо з'явиться необхідність коригування офіційної думки. Думається, що ми усі тут є законослухняними громадянами України. Якщо у Вас є зв'язки в КМУ, то давайте приведемо в "історичний порядок" вищезгадану Постанову. Я не проти безкоштовно попрацювати на благо України.

Я маю досвід вивчення білоруської мови, яка має сталу латинкову традицію а також гідний правопис (тарашкевиця), якими користуються майже всі білорусомовні, натомість офіційно затверджена така гидота(наркомівка), якою навіть влада не послуговується, бо двомовність жеж - навіщо ще якась напівмертва спотворена тими самими урядовцями білоруська, коли є загальнозрозуміла російська? В Україні просто менші маштаби.

16

Re: Транслітерація букв українського алфавіту латиницею для CMS

У білорусів трохи інша ситуація з абеткою: нова білоруська література з самого початку використовувала латиницю поруч із кирилицею (і, за деякими ознаками, первинною є саме латиниця, що успадкувала ряд орфографічних особливостей у польської, тоді як кирилиця вже створювалась на її основі) — відмова від активно використовуваної латиниці відбувалася вже в радянські роки. У нас же, попри існування кількох проектів латиниці ще в ХІХ ст. та поодиноких записів у попередні віки, українська література на ній не розвивалась, традиція писати цими літерами не сформувалась — фактично, кожен новий проект латинізації будується з нуля на основі іншомовних правописів (польського, чеського, англійського…), а відточування його практикою не відбувається.

Подякували: 0xDADA11C71

17 Востаннє редагувалося Smolenkov_BN (29.11.2017 12:27:02)

Re: Транслітерація букв українського алфавіту латиницею для CMS

NagarD написав:

О, дякую. не знав про "Позиція у слові". У себе на сайті повторив транслітерацію, що на https://dmsu.gov.ua/services/transliteration.html, але цей момент так і не докумекав.

Можу додати наступне.
1. Поєднання букв "зг" відтворюється латиницею як "zgh" (наприклад, Згораны - Zghorany, Розгон - Rozghon) у відмінності від "zh" - відповідність української букви "ж".
2. М'який знак "ь" і апостроф "'" не передаються ніякими символами.

Для транслітерації можна скористатися сервісом
http://translit.kh.ua/
http://ukrlit.org/transliteratsiia
Особливо хочу відмітити наступне:
у країнах Євросоюзу в офіційних документах (зокрема, в офіційних перекладах) українські імена власні прийнято передавати за системою ISO 9:1995.

Ось допустимі букви латинського алфавіту і їх поєднання для транслітерації усіх мов світу нероманської групи: арабська, грецька, іврит, корейська (хангиль), персидська (фарсі), російська, японська (катакана) і т.д.:
A AE AI B C CH CHI D DH DZ E EO EU EUI F FU G GH H HA HE HI HO I IY J JJ K KA KE KH KI KK KO KU L M MA ME MI MO MU N NA NE NG NI NO NU O OI P PP PS Q R RA RE RI RO RU S SA SE SH SHCH SHI SO SS SU T TA TE TH TO TS TSU TT U UW V W WA WE WI WO X Y YA YE YEO YI YO YU Z ZH

Необхідно також визначитися з позначенням символів "апостроф" і "м'який знак".

Кодування апострофу
Стандарт Юнікод
http://unicode.org/Public/UNIDATA/NamesList.txt
передбачає декілька символів, що в тій чи іншій мірі візуально схожі на апостроф. Серед них основні такі:
' - U+0027 apostrophe    (')    ASCII-апостроф (прямий, машинописний);
’ - U+2019 right single quotation mark    (’)    Одинарні закривальні лапки;
| - U+02BC modifier letter apostrophe    (ʼ)    Літера-апостроф.

Кодування м'якого знаку
Відповідно до правил транслітерації бібліотеки Конгресу США м'який знак позначається символом апостроф (').
У науковій транслітерації буква "ь" також передається символом апостроф (').

Необхідно якось розділити кодування символів "апостроф" і "м'який знак" з урахуванням обмежень, що накладаються
https://support.microsoft.com/en-us/hel … -names--fo
https://support.microsoft.com/en-us/hel … ies-to-you

До речі, попутно можна злегка модифікувати і зробити зручнішою для застосування українську розкладку клавіатури
https://www.microsoft.com/en-us/downloa … x?id=22339
Microsoft Keyboard Layout Creator allows users to create or modify keyboard layouts

Подякували: leofun01, 0xDADA11C72

18 Востаннє редагувалося Vo_Vik (01.02.2018 20:19:51)

Re: Транслітерація букв українського алфавіту латиницею для CMS

Сьогодні відкрив для себе очевидину істину, якщо кодувати ч - cz, ш - sz, а ж - zz. То у випадку сортування, всі слова на ч, ш, ж будуть собі окремо після слів на ц, с, з. А не в середині що трапляється якщо використовувати h

19

Re: Транслітерація букв українського алфавіту латиницею для CMS

Доречі використовуват | замість апострофа непогана ідея.
piv|jabluka

20

Re: Транслітерація букв українського алфавіту латиницею для CMS

Ще є ось така річ: RFC1345. Являє собою трансліт, придатний не лише для української, а й для інших кирилиць, розширеної латинки та деяких інших писемностей. У наш час, мабуть, уже дещо підзабутий (хоча колись я трохи грався з текстовим браузером — links чи lynx, який відображав кириличний текст саме в ньому). Плюс: ширший набір підтримуваних літер. Мінус: українські літери транслітеруються місцями дещо потворно (втім, питання звички та смаку).

Подякували: leofun011