1 Востаннє редагувалося Smolenkov_BN (24.11.2017 11:13:20)

Тема: Транслітерація букв українського алфавіту латиницею для CMS

Занадто часто в адресах сайтів України можна спостерігати транслітерацію букв українського алфавіту латиницею на основі саморобного домашнього суржику невиясненого походження. Тому має сенс усім українським розробникам CMS мати під рукою довідники транслітерації.

Усі раніше прийняті міжнародні стандарти транслітерації можна викачати на сайті
- Transliteration of Non-Roman Scripts
A collection of transliteration and transcription tables for various writing systems.
http://transliteration.eki.ee/
у розділі "Languages/Scripts". Зокрема, усі міжнародні стандарти транслітерації букв українського алфавіту можна подивитися у файлі "Ukrainian.pdf".

Проте офіційну транслітерацію було затверджено Постановою КМУ від 27 січня 2010 року №55
http://zakon0.rada.gov.ua/laws/show/55-2010-п
Вона має деякі відмінності від раніше прийнятих міжнародних стандартів. Ця транслітерація офіційно затверджена. Отже, саме нею і повинні користуватися розробники CMS.

Один з готових варіантів практичної реалізації офіційної транслітерації букв українського алфавіту латиницею для CMS можна узяти тут
https://github.com/fre5h/transliteration

E--------=(Відповідальність компетентного досвіду є гарантія швидкої якості)=-
Подякували: NagarD, /KIT\2

2

Re: Транслітерація букв українського алфавіту латиницею для CMS

О, дякую. не знав про "Позиція у слові". У себе на сайті повторив транслітерацію, що на https://dmsu.gov.ua/services/transliteration.html, але цей момент так і не докумекав.

український веб-довідник - css.in.ua

3

Re: Транслітерація букв українського алфавіту латиницею для CMS

Це якщо згоден з офіційним стандартом)

Подякували: 0xDADA11C7, VaultDweller2

4

Re: Транслітерація букв українського алфавіту латиницею для CMS

Офіційна транслітерація на практиці створює забагато неоднозначностей — загублені м'які знаки, плутанина і/ї/й тощо. З такого трансліту відтворити кириличний оригінал не завжди можливо — відповідно, неможливо гарантувати, що дві статті з різними кириличними назвами не називатимуться латиницею ідентично. Звідси й потреба в альтернативних варіантах, бо єдине призначення офіційного трансліту — записати паспортні дані людини так, щоб іноземець, що знає англійську, міг дуже приблизно відтворити їх вимову.

py -3 -m pip install git+https://github.com/snoack/python-goto
Подякували: 0xDADA11C71

5

Re: Транслітерація букв українського алфавіту латиницею для CMS

Smolenkov_BN
Ви хоч почитайте про українську латинку, ознайомтеся з попереднім 200+ роками досвіду до чинних правил транслітерації.

Говорила баба діду: «Я поїду к Білодіду, Ізучу двомовну мову І вернусь обратно знову». А дід бабі: «Не *изди, К Білодіду нєт їзди, — Туди не ходять поїзди»

6

Re: Транслітерація букв українського алфавіту латиницею для CMS

0xDADA11C7 написав:

Smolenkov_BN
Ви хоч почитайте про українську латинку, ознайомтеся з попереднім 200+ роками досвіду до чинних правил транслітерації.

Недоліком власне українських латинок, як правило, є присутність у них додаткових символів поза базовим ASCII — тобто, та ж технічна проблема (хоч і в меншій кількості, бо охоплює лише частину алфавіту), через яку й виникає потреба автоматичної транслітерації з кирилиці — щоб URL мали читабельний вигляд, а не були засмічені кодами символів. Для поставленої задачі ідеальною була б система, що використовує лише літери базової латиниці й дозволяє конвертувати український текст в обох напрямках без втрат.

py -3 -m pip install git+https://github.com/snoack/python-goto

7

Re: Транслітерація букв українського алфавіту латиницею для CMS

Для поставленої задачі ідеальною була б система, що використовує лише літери базової латиниці й дозволяє конвертувати український текст в обох напрямках без втрат.

Така ідеальна система призводить до невдоволення гіпстерів власне українською латиникою, бо невідповідність української латиники англійській мові для них немов пекельні муки.

Говорила баба діду: «Я поїду к Білодіду, Ізучу двомовну мову І вернусь обратно знову». А дід бабі: «Не *изди, К Білодіду нєт їзди, — Туди не ходять поїзди»

8 Востаннє редагувалося Vo_Vik (24.11.2017 22:47:26)

Re: Транслітерація букв українського алфавіту латиницею для CMS

На гішпанську треба орієнтуватись)

Подякували: 0xDADA11C71

9 Востаннє редагувалося Vo_Vik (24.11.2017 22:47:36)

Re: Транслітерація букв українського алфавіту латиницею для CMS

і іпштерів нафіг.

Подякували: 0xDADA11C71

10

Re: Транслітерація букв українського алфавіту латиницею для CMS

Було би кльово мати такий трасліт на основі базової латинки який би однозначно описував звуки всіх світових альфавітів, ото би була задачка)

11 Востаннє редагувалося iovchynnikov (25.11.2017 00:21:52)

Re: Транслітерація букв українського алфавіту латиницею для CMS

P.Y. написав:

Недоліком власне українських латинок, як правило, є присутність у них додаткових символів поза базовим ASCII — тобто, та ж технічна проблема

Перепрошую, а яка тут технічна проблема? UTF-8 існує від початку 1990-х, RFC - 2003. Усі сучасні пристрої підтримують UTF-8 на 100%.

Smolenkov_BN написав:

Занадто часто в адресах сайтів України можна спостерігати транслітерацію букв українського алфавіту латиницею на основі саморобного домашнього суржику невиясненого походження.

В переважній більшості, Вами названий суржик - просто транслітератор російської :)

Необхідність робити транслітерацію URL в 2017 теж питання дискусійне. Сучасні переглядачі теж підтримують UTF-8 в адресах, як, власне, й бази даних (маппінґ).

Подякували: 0xDADA11C71

12

Re: Транслітерація букв українського алфавіту латиницею для CMS

iovchynnikov написав:
P.Y. написав:

Недоліком власне українських латинок, як правило, є присутність у них додаткових символів поза базовим ASCII — тобто, та ж технічна проблема

Перепрошую, а яка тут технічна проблема? UTF-8 існує від початку 1990-х, RFC - 2003. Усі сучасні пристрої підтримують UTF-8 на 100%.

Smolenkov_BN написав:

Занадто часто в адресах сайтів України можна спостерігати транслітерацію букв українського алфавіту латиницею на основі саморобного домашнього суржику невиясненого походження.

В переважній більшості, Вами названий суржик - просто транслітератор російської :)

Необхідність робити транслітерацію URL в 2017 теж питання дискусійне. Сучасні переглядачі теж підтримують UTF-8 в адресах, як, власне, й бази даних (маппінґ).

Але, фактично, оте ваше utf-8 в URL насправді являє собою або URL-кодування (тобто, %NN замість кожного байта кількабайтних представлень символів) у шляху та параметрах, або Punycode в доменних іменах — навіть якщо браузер візуалізує юнікодівські символи, при копіюванні адреси в буфер може надходити отой людинонепрочитуваний код. Звісно, питання смаку (скажімо, Вікіпедія спокійно обходиться без подібних транслітерацій), але в багатьох CMS хорошим тоном вважається транслітерація.

py -3 -m pip install git+https://github.com/snoack/python-goto
Подякували: leofun011

13 Востаннє редагувалося Smolenkov_BN (27.11.2017 11:33:31)

Re: Транслітерація букв українського алфавіту латиницею для CMS

0xDADA11C7 написав:

Smolenkov_BNВи хоч почитайте про українську латинку, ознайомтеся з попереднім 200+ роками досвіду до чинних правил транслітерації.

Мою суб'єктивну думку я можу висловити у тому випадку, якщо з'явиться необхідність коригування офіційної думки. Думається, що ми усі тут є законослухняними громадянами України. Якщо у Вас є зв'язки в КМУ, то давайте приведемо в "історичний порядок" вищезгадану Постанову. Я не проти безкоштовно попрацювати на благо України.

E--------=(Відповідальність компетентного досвіду є гарантія швидкої якості)=-

14

Re: Транслітерація букв українського алфавіту латиницею для CMS

Та транслітерація затвердженна постановою кабінету міністрів, і стосується роботи органів державної влади. Так що причому тут законослухняні громадяни я не зрозумів.

Подякували: 0xDADA11C71

15

Re: Транслітерація букв українського алфавіту латиницею для CMS

Smolenkov_BN написав:

Мою суб'єктивну думку я можу висловити у тому випадку, якщо з'явиться необхідність коригування офіційної думки. Думається, що ми усі тут є законослухняними громадянами України. Якщо у Вас є зв'язки в КМУ, то давайте приведемо в "історичний порядок" вищезгадану Постанову. Я не проти безкоштовно попрацювати на благо України.

Я маю досвід вивчення білоруської мови, яка має сталу латинкову традицію а також гідний правопис (тарашкевиця), якими користуються майже всі білорусомовні, натомість офіційно затверджена така гидота(наркомівка), якою навіть влада не послуговується, бо двомовність жеж - навіщо ще якась напівмертва спотворена тими самими урядовцями білоруська, коли є загальнозрозуміла російська? В Україні просто менші маштаби.

Говорила баба діду: «Я поїду к Білодіду, Ізучу двомовну мову І вернусь обратно знову». А дід бабі: «Не *изди, К Білодіду нєт їзди, — Туди не ходять поїзди»

16

Re: Транслітерація букв українського алфавіту латиницею для CMS

У білорусів трохи інша ситуація з абеткою: нова білоруська література з самого початку використовувала латиницю поруч із кирилицею (і, за деякими ознаками, первинною є саме латиниця, що успадкувала ряд орфографічних особливостей у польської, тоді як кирилиця вже створювалась на її основі) — відмова від активно використовуваної латиниці відбувалася вже в радянські роки. У нас же, попри існування кількох проектів латиниці ще в ХІХ ст. та поодиноких записів у попередні віки, українська література на ній не розвивалась, традиція писати цими літерами не сформувалась — фактично, кожен новий проект латинізації будується з нуля на основі іншомовних правописів (польського, чеського, англійського…), а відточування його практикою не відбувається.

py -3 -m pip install git+https://github.com/snoack/python-goto
Подякували: 0xDADA11C71

17 Востаннє редагувалося Smolenkov_BN (29.11.2017 13:27:02)

Re: Транслітерація букв українського алфавіту латиницею для CMS

NagarD написав:

О, дякую. не знав про "Позиція у слові". У себе на сайті повторив транслітерацію, що на https://dmsu.gov.ua/services/transliteration.html, але цей момент так і не докумекав.

Можу додати наступне.
1. Поєднання букв "зг" відтворюється латиницею як "zgh" (наприклад, Згораны - Zghorany, Розгон - Rozghon) у відмінності від "zh" - відповідність української букви "ж".
2. М'який знак "ь" і апостроф "'" не передаються ніякими символами.

Для транслітерації можна скористатися сервісом
http://translit.kh.ua/
http://ukrlit.org/transliteratsiia
Особливо хочу відмітити наступне:
у країнах Євросоюзу в офіційних документах (зокрема, в офіційних перекладах) українські імена власні прийнято передавати за системою ISO 9:1995.

Ось допустимі букви латинського алфавіту і їх поєднання для транслітерації усіх мов світу нероманської групи: арабська, грецька, іврит, корейська (хангиль), персидська (фарсі), російська, японська (катакана) і т.д.:
A AE AI B C CH CHI D DH DZ E EO EU EUI F FU G GH H HA HE HI HO I IY J JJ K KA KE KH KI KK KO KU L M MA ME MI MO MU N NA NE NG NI NO NU O OI P PP PS Q R RA RE RI RO RU S SA SE SH SHCH SHI SO SS SU T TA TE TH TO TS TSU TT U UW V W WA WE WI WO X Y YA YE YEO YI YO YU Z ZH

Необхідно також визначитися з позначенням символів "апостроф" і "м'який знак".

Кодування апострофу
Стандарт Юнікод
http://unicode.org/Public/UNIDATA/NamesList.txt
передбачає декілька символів, що в тій чи іншій мірі візуально схожі на апостроф. Серед них основні такі:
' - U+0027 apostrophe    (')    ASCII-апостроф (прямий, машинописний);
’ - U+2019 right single quotation mark    (’)    Одинарні закривальні лапки;
| - U+02BC modifier letter apostrophe    (ʼ)    Літера-апостроф.

Кодування м'якого знаку
Відповідно до правил транслітерації бібліотеки Конгресу США м'який знак позначається символом апостроф (').
У науковій транслітерації буква "ь" також передається символом апостроф (').

Необхідно якось розділити кодування символів "апостроф" і "м'який знак" з урахуванням обмежень, що накладаються
https://support.microsoft.com/en-us/hel … -names--fo
https://support.microsoft.com/en-us/hel … ies-to-you

До речі, попутно можна злегка модифікувати і зробити зручнішою для застосування українську розкладку клавіатури
https://www.microsoft.com/en-us/downloa … x?id=22339
Microsoft Keyboard Layout Creator allows users to create or modify keyboard layouts

E--------=(Відповідальність компетентного досвіду є гарантія швидкої якості)=-
Подякували: leofun011