21 Востаннє редагувалося Vo_Vik (08.02.2018 17:27:52)

Re: Транслітерація букв українського алфавіту латиницею для CMS

Після багатьох страждань, мій поточний варіант.
A a     B b     C c     D d     Dz dz Djz djz
А а     Б б     Ч ч     Д д     Дз дз Дж дж
E e     Je je     F f     G g     H h     I i     J j     Jz jz     K k     L l
Е е     Є є     Ф ф     Ґ ґ     Г г     І і     Й й     Ж ж     К к     Л л
M m     N n     O o     P p     R r     S s Sz sz
М м     Н н     О о     П п     Р р     С с     Ш ш
Sc sc     T t     Tz tz     U u     Ju ju     V v     W w     X x     Y y     Z z
Щ щ     T t     Ц ц     У у     Ю ю     В в     Вв вв(ув) Х х    И и     З з

j - після приголосних помякшує. За виключенням якщо після нього йде z (nj, lj, tj - нь, ль, ть)
Голосна йотує голосну що йде після неї. Maria, Buae (Буяє), Uava (Уява)
Якщо треба розділити букво сполучення використовуємо апостроф piv'jabluka, ne'oplan, Pid'zamce, Pid'jzabje
У випадку подвоєння буквосполучення, подвоюється тільки z - pidnijzzja, zbijzzja, Nitzza

У випадку здвигу до харківського правопису ль -> l, л -> l'

Відповідно
Sce ne vmerla Ukrainy ni slava, ni volja.
Sce nam, brattja ukrainci, usmixnetjsja dolja.
Zhynutj naszi vorijzenjky, jak rosa na sontzi,
Zapanuem i my, brattja, u svoij storontzi.

Duszu j tilo my polojzym za naszu svobodu,
I pokajzem, sco my, brattja, kozatzjkoho rodu.

Подякували: ostap34PHP, NaharD2

22 Востаннє редагувалося Vo_Vik (09.02.2018 16:19:35)

Re: Транслітерація букв українського алфавіту латиницею для CMS

А поговоріть зі мною на цю тему хтось)
бо є ще варіанти заміни писати й і ь як q, а не j
тоді ж можна буде писати як j

Або знову ж таки піти за поляками і взяти rz для ж.
Або просто використовувати q для ж.

Або gz для ж.

23

Re: Транслітерація букв українського алфавіту латиницею для CMS

Або взагалі ж -> g, ґ ->q або hz

24

Re: Транслітерація букв українського алфавіту латиницею для CMS

Або так як я писав вище, тобто ж->jz, але от дж->gz. Тоді всі дисграфи мають максимально 2 букви.

25 Востаннє редагувалося dot (20.02.2018 13:48:57)

Re: Транслітерація букв українського алфавіту латиницею для CMS

Поговорити?
Aa        Bb        Cc        Dd        Ee        Ff
Аа        Бб        Шш        Дд        Ее        Фф

Gg        Hh        Ii        Jj        Kk        Ll
Жж        Гг        Іі        Йй        Кк        Лл
                              Ьь

Mm        Nn        Oo        Pp        Qq        Rr        
Мм        Нн        Оо        Пп        Ґґ        Рр        

Ss        Tt        Uu        Vv        Ww        Xx
Сс        Тт        Уу        Вв        Ўў        Хх

Yy        Zz        
Ии        Зз
Jj        +         Aa        Ee        Ii        Uu
                    Яя        Єе        Її        Юю

Dd        +         Zz        Gg
                    Ӟӟ        Ӝӝ

Tt        +         Ss        Cc
                    Цц        Чч
                             /tʃ/

Cc        +         tc
                    Щщ
                   /шч/

         pravyla apostrofu
          rigni vidokremlennja
          (ridko) prokovtuvannja tre’?
Krasyva abetka dlja uvagnyx
Aa        Oo        Ii        Yy        Ee        Uu

Bb        Vv        Ww        
Pp        Ff        Jj

Hh        Qq        Dd        Gg        Zz
Xx        Kk        Tt        Cc        Ss

Rr      
Ll        Mm        Nn 

Ctce ne vmerla Ukrajiny ni slava, ni volja.
Ctce nam, brattja molodiji, usmixnetjsja dolja.
Zhynutj naci vorigenjky, jak rosa na sontsi,
Zapanujem i my, brattja, u svojij storontsi.

Ducu j tilo my pologym za nacu svobodu,
I pokagem, ctco my, brattja, kozatsjkoho rodu.

26 Востаннє редагувалося Vo_Vik (20.02.2018 16:08:29)

Re: Транслітерація букв українського алфавіту латиницею для CMS

Якщо взяти частотний аналіз використання букв в українській мові, то http://www.academia.edu/11306433/Ukr-frequency-analysis
я би все ж таки спробував швидше віділити букві ч одну букву ніж букві ш. А от стосовно букви ж згоден що їй потрібна окрема графема. І ж -> g, ґ -> q, в принципі не поганий варіант. Тільки треба глянути наскільки будуть трансформуватись слова іншомовного походження)

Плюс все ж таки проблема сортування. Треба таки подумати наскільки вона критична.

27

Re: Транслітерація букв українського алфавіту латиницею для CMS

Доречі апостроф в utf8 йде перед всіма буквами(вірніше власне той символ що має код 39, бо різні люди можуть вживати різний апостроф)
Тобто комбінації з апострофом будуть йти навіть перед комбінаціями з буквою а. Цікаво наскільки воно співпадає з сучасними українськими словниками.

28

Re: Транслітерація букв українського алфавіту латиницею для CMS

Гм, та і j буде порушувати сучасне сортування. Може таки забити на сортування і не мучатись з z? А як дуже треба просто добавити його в Українську локаль)

29

Re: Транслітерація букв українського алфавіту латиницею для CMS

Дӓкуӱ за відомість про частоту.

Так, через Щ маёмо проблему з Ш чи Ч. Але чому ӓ зробив саме так? Проходив мимо, але коли серʼӧзніше: Ш — окремиь звук, а Ч Ц — африкати до ТШ ТС відповідно. Лӓтинська С: а) частково вже повʼӓзана з звуками Ч Ш; б) коли узӓти ӓк Ш, то непогано підходить виглӓдом до парного ӟвінкого звуку G Ж. Звісно, було ліпше, аби ті звуки мали окремі власні букви.

Q підходить до Ґ не тільки скільки рідкостӱ, скільки давниноӱ звука Ґ, і також, очевидно, чудово пасуё до парного К.

Проблему з апотрофом не тільки ми маʼ, ось анґліьська вживаʼ: a) U+0027 — apostrophe: прӓма чи проґрама, та з 39; б) U+2019 — right single quotation mark; в) U+02BC — modifier letter apostrophe — особисто саме ту пропонуӱ вживати.

Не ёсмь шанувальником теперешнӧї абетки і Unicode, звісно, тому прикріпив звукову і лӧгічнішу однознакову абетку просто ӓк додаток. Але коли конче треʼ сортувати, то ліпше не вигадувати надхитру абетку, а, гадаӱ, написати відповідниь сортувач.

30

Re: Транслітерація букв українського алфавіту латиницею для CMS

Я тут трохи подивився по вікі https://en.wikipedia.org/wiki/Voiceless … _affricate - це для букви ч. https://en.wikipedia.org/wiki/Voiceless … _affricate - це для чь

https://en.wikipedia.org/wiki/Voiceless … _fricative - тверде ш
https://en.wikipedia.org/wiki/Voiceless … _fricative - нормальне ш
https://en.wikipedia.org/wiki/Voiceless … _fricative - шь

https://en.wikipedia.org/wiki/Voiceless … _affricate - ц

https://en.wikipedia.org/wiki/Voiced_po … _fricative
https://en.wikipedia.org/wiki/Voiced_re … _fricative
https://en.wikipedia.org/wiki/Voiced_al … _fricative - ж

31 Востаннє редагувалося dot (20.02.2018 18:20:23)

Re: Транслітерація букв українського алфавіту латиницею для CMS

Длӓ більшости помʼӓкшень вживаётьсӓ саме звичаёве помʼӓкшеннӓ, а не зміна на звуків, ӓких пан навів. Хоча, не заперечуӱ, инколи таке траплӓё, але переважно а) у запозичених словах; б) лӱдьми, котрі живуть білӓ кордону чи приїхали із закордону.

32

Re: Транслітерація букв українського алфавіту латиницею для CMS

dot написав:

Дӓкуӱ за відомість про частоту.

Так, через Щ маёмо проблему з Ш чи Ч. Але чому ӓ зробив саме так? Проходив мимо, але коли серʼӧзніше: Ш — окремиь звук, а Ч Ц — африкати до ТШ ТС відповідно. Лӓтинська С: а) частково вже повʼӓзана з звуками Ч Ш; б) коли узӓти ӓк Ш, то непогано підходить виглӓдом до парного ӟвінкого звуку G Ж. Звісно, було ліпше, аби ті звуки мали окремі власні букви.

Q підходить до Ґ не тільки скільки рідкостӱ, скільки давниноӱ звука Ґ, і також, очевидно, чудово пасуё до парного К.

Проблему з апотрофом не тільки ми маʼ, ось анґліьська вживаʼ: a) U+0027 — apostrophe: прӓма чи проґрама, та з 39; б) U+2019 — right single quotation mark; в) U+02BC — modifier letter apostrophe — особисто саме ту пропонуӱ вживати.

Не ёсмь шанувальником теперешнӧї абетки і Unicode, звісно, тому прикріпив звукову і лӧгічнішу однознакову абетку просто ӓк додаток. Але коли конче треʼ сортувати, то ліпше не вигадувати надхитру абетку, а, гадаӱ, написати відповідниь сортувач.

Тут залежно що ви розробляєте. Якщо просто транслітерацію, яку раз зробили і забили, то одне. А якщо латинку якою збираєтесь користуватись кожень день на письмі, то інше. Саме тому в українські мові і є букви цчшщхєюяї, що ці звукосполучення є частовживанні і було зручно їх позначати однією буквою. і тому 3 букви на місці однієї щ, яка вживається досить часто, то трохи проблема.

33 Востаннє редагувалося dot (20.02.2018 19:28:40)

Re: Транслітерація букв українського алфавіту латиницею для CMS

Ёсмь шанувальником думки драгоманівки, цебто відсутність ӧтованих і букви Щ; такиь собі перехідниь проміжок на лӓтинку. Не пишу так, бо багатӧм просто незвично, але умлӓути приьмаӱть легкіше. Наголошу: більшість західних лӓтинописемні не маӱть подібних букв; абетка на основі південословʼӓської не вклӱчаё ӧтовані і Щ; білоруська — Щ. Щоправда, кожна маʼ власні букви, ӓк наша Ґ.

Цебто відмовитисӓ від більшости згаданих вами букв — взагалі не проблема. Додав би, ӓк пан міг помітити, що одна з букв Й Ь — заьва. Бо: а) загалом діьсно швидше чи однаково писати; б) ліпше відображаё звукову складову; в) лӧгічність; г) ліпше длӓ друкарів.

Так, це просто a) перебуквуваннӓ, бо очевидно, що треʼ створити допоміжні знаки чи букви до Ч Ц, можливо і длӓ ДЖ ДЗ; б) повна форма написаннӓ, коли все-таки існуӱть допоміжні знаки, але, раптово, немаё змоги написати їх, штибу німецкі Ä АЕ, Ö OE, Ü UE.

Тому так чи инакше матимемо длӓ зручности допоміжні знаки чи взагалі нові букви у лӓтинки. Але перед тим, ӓк злӓкатисӓ від цӧго, наголошу, що кирилицӓ вже маё ӓвні допоміжні знаки Й Ї, неӓвні Ю Я Ц Щ Ґ.

З існуӱчих ё непогана така лӓтинка. Коли врахувати і окремих букв длӓ ДЖ ДЗ, то проблемка. Але клӱчові букви моёї абетки підкажуть:

DZ        Žž
DG        Ǧǧ

TS        Šš
TC        Čč

Cče ne vmerla Ukrajiny ni slava, ni volja.
Cče nam, brattja molodiji, usmixnetjsja dolja.
Zhynutj naci vorigenjky, jak rosa na sonši,
Zapanujem i my, brattja, u svojij storonši.

Ducu j tilo my pologym za nacu svobodu,
I pokagem, cčo my, brattja, kozašjkoho rodu.

Такоӱ кириличноӱ розкладкоӱ пишу цеь пис

https://imgur.com/PVKHFcj.png

Можна суттёво покращити: а) відкинути староӧтовані чи инші московські і старі букви; б) відповідна заміна; в) оновити за частотоӱ.

34 Востаннє редагувалося P.Y. (20.02.2018 19:33:14)

Re: Транслітерація букв українського алфавіту латиницею для CMS

Колись написав транслітератор на основі слов'янських диграфів

код (Clojure)
;; clojure %0
;; goto eof

(def clipboard (.. (java.awt.Toolkit/getDefaultToolkit) (getSystemClipboard)))
(defn clip []
    (let [clip-data (. clipboard getContents clipboard)]
        (. clip-data getTransferData java.awt.datatransfer.DataFlavor/stringFlavor)))
(defn set-clip [s]
    (let [data (java.awt.datatransfer.StringSelection. s)]
        (. clipboard setContents data data)))
(use '[clojure.string :only [join capitalize]])
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
(def cyr (->>(concat' б в г ґ д е є  ж  з и і ї  й к л м н о п р с т у ф  х  ц ч  ш  щ    ю я
    цг цз сз рз)
    (apply concat
        (for [c '(б в г ґ д ж  з к л м н п р с т ф х  ц  ч  ш  щ    цг цз сз рз)
              v ' ю є ї)]
                [(str c v) (str c \' v)]))    
    (for [c '(б в г ґ д ж  з к л м н п р с т ф х  ц  ч  ш  щ    цг цз сз рз)
          x ' ь)]
            (str c x))
    (for [v '(а у е і)] (str \й v))
    )
    (map str)
    (mapcat #(list % (capitalize %)))
    ))
(def lat (->>(concat '(a b v h g d e je rz z y i ji j k l m n o p r s t u f ch c cz sz szcz ju ja
    "c'h" "c'z" "s'z" "r'z")
    (apply concat
        (for [c '(b v h g d rz z k l m n p r s t f ch c cz sz szcz    "c'h" "c'z" "s'z" "r'z")
              v '(ja ju je ji)]
                [(str c v) (str c \' v)]))    
    (for [c '(b v h g d rz z k l m n p r s t f ch c cz sz szcz    "c'h" "c'z" "s'z" "r'z")
          x '("'j" j)]
            (str c x))
    (for [v '(a u e i)] (str "j'" v))
    )
    (map str)
    (mapcat #(list % (capitalize %)))
    ))
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
;; підг. регекс для розбивки на послідовність:
(def p (->(->>
        (concat cyr lat)
        ;sort (longer first):
        (sort-by #(-> % count -))
        ;quote each string:
        (map #(java.util.regex.Pattern/quote %))
        (join "|")
        (str "(?s)"))
    (str "|.")
    re-pattern))
(->> (clip)
    ;; split string to single letters and digraphs:
    (re-seq p)
    (replace (zipmap (concat cyr lat) (concat lat cyr)))
    (apply str)
    set-clip) 

a b v h g d e je rz z y i ji j k l m n o p r s t u f ch c cz sz szcz j ju ja
Апостроф ставиться там же, де в кирилиці, а також між приголосною та j в ролі й чи щоб розділити диграф на окремі літери.

35

Re: Транслітерація букв українського алфавіту латиницею для CMS

Драгоманівка драгоманівкою, але перечитуйте перед тим як відправляти свій допис. Бо в довгих абзацах від мене утікає потік вашої думки.

36

Re: Транслітерація букв українського алфавіту латиницею для CMS

доречі стосовно щ, ви чуєте в звуці різницю від вживання сч і шч?

37

Re: Транслітерація букв українського алфавіту латиницею для CMS

А от ще цікаво, чому українська абетка має саме той порядок, що має. Це має якесь наукове обгрунтування чи просто так сі стало?

38

Re: Транслітерація букв українського алфавіту латиницею для CMS

У мене доречі виникають певні сумніми на рахунок достовірності тих цифр в табличках з частотою вживання. Було би добре написати маленький парсер і прогнати через нього кілька десятків сучасних творів. А якби вдалось знайти виключно україномовний сайт, то і його. Щоб глянути на реальні дані.

39 Востаннє редагувалося dot (20.02.2018 20:10:37)

Re: Транслітерація букв українського алфавіту латиницею для CMS

1. Спробував поӓснити, шчо не всі букви потрібні, на прикладі нашого одного правопису. сучасного стану і справах инших.

2. Бажано уточнити, ӓкої саме мови. Коли СЧ московське (причому доволі рідке таке, згадуӱ хіба шчо счастье), а ШЧ українське, то дуже схожі, але московське починаё «різкіше», а українська так закінчуё.

3. Бо так скопіӱвати у греків, ӓкі у своӱ чергу скопіӱвали у семітів, цебто фінікіьців, ӓкі, у своӱ чергу, у когось теж чи самі вигадали… А там нитка губитьсӓ, ось такі справоньки. Ось тут непоганиь приклад розвитку лӓтини і кирилиці (инші).

40 Востаннє редагувалося Vo_Vik (20.02.2018 20:34:25)

Re: Транслітерація букв українського алфавіту латиницею для CMS

Бо якщо порядок літер немає значення, то будь-яке сортування можна назвати правильним)

На рахунок зайвості літер, то можна і ф забрати.
Зрештою w і так по факту вільна) і семіти подібну для ш використовують, так що теж може бути варіант. Тай власне w - фінікійці використовували для того ж ш.