10 761

Re: Тема для розмов.

P.Y. написав:
Vo_Vik написав:

Гм, а хтось бачив якісь алгоритми, які аналізують наскільки той чи інший алфавіт підходить тій чи іншій мові чи діалекту. Для української навіть частоту вживання букв, в якій включений апостроф знайти неможливо, не кажучи вже про комбінації звуків.

Насамперед, що значить «підходить»? Чи підходить англійській мові англійський алфавіт, наприклад, і чому?

Ну як на мене - це сумарна кількість літер для запису такого ж тексту різними алфавітами і кількість виключень, які не ввдповідають загальним правилам.

10 762

Re: Тема для розмов.

Vo_Vik написав:

Гм. А ви багато в неті сканів шукаєте і читаєте?

Я інколи читаю паперові книжки.

Подякували: 221VOLT1

10 763

Re: Тема для розмов.

P.Y. написав:
Vo_Vik написав:

Гм. А ви багато в неті сканів шукаєте і читаєте?

Я інколи читаю паперові книжки.

Тобто ви вважаєте, що коли роблять передрук, то спочатку сканують стару книжку?

10 764 Востаннє редагувалося P.Y. (30.03.2020 18:35:03)

Re: Тема для розмов.

Vo_Vik написав:
P.Y. написав:
Vo_Vik написав:

Гм, а хтось бачив якісь алгоритми, які аналізують наскільки той чи інший алфавіт підходить тій чи іншій мові чи діалекту. Для української навіть частоту вживання букв, в якій включений апостроф знайти неможливо, не кажучи вже про комбінації звуків.

Насамперед, що значить «підходить»? Чи підходить англійській мові англійський алфавіт, наприклад, і чому?

Ну як на мене - це сумарна кількість літер для запису такого ж тексту різними алфавітами і кількість виключень, які не ввдповідають загальним правилам.

Це питання не власне алфавіту, а правопису. Ту ж англійську, при великому бажанні, можна було б перевести на правопис навіть з тими ж 26 літерами, але з регулярною відповідністю графіки вимові й однозначною передачею одного й того ж звучання одними й тими ж літерами чи диграфами.

10 765 Востаннє редагувалося Vo_Vik (30.03.2020 18:52:57)

Re: Тема для розмов.

Так, згоден, правопису. Але кожен правопис базується на певному алфавіті.

10 766

Re: Тема для розмов.

Vo_Vik написав:
FakiNyan написав:
Vo_Vik написав:

Гм, а хтось бачив якісь алгоритми, які аналізують наскільки той чи інший алфавіт підходить тій чи іншій мові чи діалекту. Для української навіть частоту вживання букв, в якій включений апостроф знайти неможливо, не кажучи вже про комбінації звуків.

напишіть то, ви ж програміст

Я пробував, але не зміг знайти відкритих текстів, в яких би було достатньо тексту для більш-менш достовірного аналізу.

але  ж є різні книжки і все таке

10 767

Re: Тема для розмов.

FakiNyan написав:
Vo_Vik написав:
FakiNyan написав:

напишіть то, ви ж програміст

Я пробував, але не зміг знайти відкритих текстів, в яких би було достатньо тексту для більш-менш достовірного аналізу.

але  ж є різні книжки і все таке

Я думав взяти найдовші сторінки вікіпедії, але щось воно на етапі думання і заглохло

10 768

Re: Тема для розмов.

Vo_Vik написав:

Так, згоден, правопису. Але кожен правопис базується на певному алфавіті.

Проте, нерегулярності — це характеристика не алфавіту, а саме правопису. Якщо говорити про англійський правопис, то це той же Толстой з французькими вставками, тільки обидві мови йдуть латиницею — і це стало правописною нормою. Хоча всі ті запозичення могли передавати фонетично за тими ж правилами, що й у питомій лексиці. Також, оскільки цей правопис достатньо давній, частина нерегулярностей виникла через фонетичні зміни, що відбувалися в мові.

10 769

Re: Тема для розмов.

Далі, ту ж українську латинку, при бажанні, можна зробити такою, що функціонально не відрізнятиметься від кирилиці. Нехай у кожної кириличної літери буде рівно один латинський відповідник (наводжу тут один із своїх давніших проектів):
  Аа Бб Вв Гг Ґґ Дд Ее Єє Жж Зз Ии Іі Її Йй Кк Лл Мм Нн Оо Пп Рр Сс Тт Уу Фф Хх Цц Чч Шш Щщ Ьь Юю Яя
  Aa Bb Vv Hh Gg Dd Ee Ëë Žž Zz Yy Ii Ïï Jj Kk Ll Mm Nn Oo Pp Rr Ss Tt Uu Ff Xx Cc Čč Šš Qß ɪı Üü Ää

З точки зору кількості літер та можливих нерегулярностей, відмінностей між такою латиницею та сучасною кирилицею ми не побачимо. Хоча алфавітні основи різні.

10 770 Востаннє редагувалося Vo_Vik (30.03.2020 19:51:13)

Re: Тема для розмов.

P.Y. написав:

Далі, ту ж українську латинку, при бажанні, можна зробити такою, що функціонально не відрізнятиметься від кирилиці. Нехай у кожної кириличної літери буде рівно один латинський відповідник (наводжу тут один із своїх давніших проектів):
  Аа Бб Вв Гг Ґґ Дд Ее Єє Жж Зз Ии Іі Її Йй Кк Лл Мм Нн Оо Пп Рр Сс Тт Уу Фф Хх Цц Чч Шш Щщ Ьь Юю Яя
  Aa Bb Vv Hh Gg Dd Ee Ëë Žž Zz Yy Ii Ïï Jj Kk Ll Mm Nn Oo Pp Rr Ss Tt Uu Ff Xx Cc Čč Šš Qß ɪı Üü Ää

З точки зору кількості літер та можливих нерегулярностей, відмінностей між такою латиницею та сучасною кирилицею ми не побачимо. Хоча алфавітні основи різні.

Тільки це не латинський алфавіт, а алфавіт на його основі. А за решту згоден.

10 771

Re: Тема для розмов.

Наразі скачав Біблію в форматі txt. Буду на її основі робити частотний аналіз. Але у мене є серйозні підстави вважати, що вона буде давати значні розбіжності з іншими щоденними текстами.

10 772

Re: Тема для розмов.

Vo_Vik написав:
P.Y. написав:

Далі, ту ж українську латинку, при бажанні, можна зробити такою, що функціонально не відрізнятиметься від кирилиці. Нехай у кожної кириличної літери буде рівно один латинський відповідник (наводжу тут один із своїх давніших проектів):
  Аа Бб Вв Гг Ґґ Дд Ее Єє Жж Зз Ии Іі Її Йй Кк Лл Мм Нн Оо Пп Рр Сс Тт Уу Фф Хх Цц Чч Шш Щщ Ьь Юю Яя
  Aa Bb Vv Hh Gg Dd Ee Ëë Žž Zz Yy Ii Ïï Jj Kk Ll Mm Nn Oo Pp Rr Ss Tt Uu Ff Xx Cc Čč Šš Qß ɪı Üü Ää

З точки зору кількості літер та можливих нерегулярностей, відмінностей між такою латиницею та сучасною кирилицею ми не побачимо. Хоча алфавітні основи різні.

Тільки це не латинський алфавіт, а алфавіт на його основі. А за решту згоден.

Власне, й англійський 26-літерний — також алфавіт на основі латинського: літера W в класичній латині не використовувалась і була додана для запису германського звуку вже після завоювання Риму варварами.

10 773

Re: Тема для розмов.

P.Y. написав:
Vo_Vik написав:
P.Y. написав:

Далі, ту ж українську латинку, при бажанні, можна зробити такою, що функціонально не відрізнятиметься від кирилиці. Нехай у кожної кириличної літери буде рівно один латинський відповідник (наводжу тут один із своїх давніших проектів):
  Аа Бб Вв Гг Ґґ Дд Ее Єє Жж Зз Ии Іі Її Йй Кк Лл Мм Нн Оо Пп Рр Сс Тт Уу Фф Хх Цц Чч Шш Щщ Ьь Юю Яя
  Aa Bb Vv Hh Gg Dd Ee Ëë Žž Zz Yy Ii Ïï Jj Kk Ll Mm Nn Oo Pp Rr Ss Tt Uu Ff Xx Cc Čč Šš Qß ɪı Üü Ää

З точки зору кількості літер та можливих нерегулярностей, відмінностей між такою латиницею та сучасною кирилицею ми не побачимо. Хоча алфавітні основи різні.

Тільки це не латинський алфавіт, а алфавіт на його основі. А за решту згоден.

Власне, й англійський 26-літерний — також алфавіт на основі латинського: літера W в класичній латині не використовувалась і була додана для запису германського звуку вже після завоювання Риму варварами.

Також згоден, чекав, на це зауваження.

10 774 Востаннє редагувалося dot (30.03.2020 20:37:26)

Re: Тема для розмов.

P.Y. написав:
Прихований текст
dot написав:
P.Y. написав:

чого це латиничне покоління українською мовою взагалі не читає, не пише й не гуглить.

Ne duge sxoge, ge kyrylytcna Ukrajynsjka tsjomu jakosj spryjaje. Navitj hirce, navitj pry takomu pocuku vylaze Moskovsjka. Tomu latynsjka Ukrajynsjka xotja b dastj biljce oseredkiv, bo riznytsja megy kyrylytsjoju i latynytsjoju taky davaty jme vznaky.

Ви ж не заперечуватимете, що читати латиничне покоління зможе лише тими мовами, на яких є що читати? Бачите, проблема не в тому, що кирилиця як у москалів, а в тому, що на українській кирилиці потрібної інформації в мережі на порядок менше. Латинка ж відбере й той мізер, який ми маємо на українській кирилиці. Бо все це, що, в теорії, можна «легко конвертувати», насправді вимагатиме тисяч і мільйонів годин редакторської роботи з вичитки криво розпізнаних сканів — і це все не безкоштовно, бо редакторам треба щось їсти. Скільки своїх зарплат готові віддати на цю благородну справу особисто ви?.. Бо держава навряд чи захоче фінансувати цей мегапроект.

Відтак, намагаючись гуглити українською латинкою, маленькі українчики просто раз за разом натраплятимуть на якісь іншомовні латинописні сайти і, зрештою, перейдуть на англійську. Питання: як ви взагалі уявляєте собі конкуренцію української мови, ослабленої переходом на латиницю й позбавленої напрацювань останніх двохсот років, з таким гігантом, як сучасна англійська мова?

Ale vid kyrylytcnoji, latynsjka maje rozvytok. Do toho g pokazuvaty Anqlisjku vrjad bude, bo zavelyka riznytsja spoluk bukv. Lyce podkoly.

Ctcodo hrocovyny, to mogna roboty postupovo, a ne odrazu, jak ujavjate. Bo knyhy, znaky i toctco sami po sobi onovjujutj sja tcerez pevnyj promigok tcasu. Hadaju, tcas Atatjurka zhode sja – desj pjatj rokiv.

Насамперед, що значить «підходить»? Чи підходить англійській мові англійський алфавіт, наприклад, і чому?

Ne pidxode, bo dekotri bukvy nepotribni i malovgyvani, tsje ja pro naprykald q ta x. Takog porucena pravopysna norma. Zaraz vony ne zjminjujutj, bo vony poky na koni.

P.Y. написав:

Далі, ту ж українську латинку, при бажанні, можна зробити такою, що функціонально не відрізнятиметься від кирилиці. Нехай у кожної кириличної літери буде рівно один латинський відповідник (наводжу тут один із своїх давніших проектів):
  Аа Бб Вв Гг Ґґ Дд Ее Єє Жж Зз Ии Іі Її Йй Кк Лл Мм Нн Оо Пп Рр Сс Тт Уу Фф Хх Цц Чч Шш Щщ Ьь Юю Яя
  Aa Bb Vv Hh Gg Dd Ee Ëë Žž Zz Yy Ii Ïï Jj Kk Ll Mm Nn Oo Pp Rr Ss Tt Uu Ff Xx Cc Čč Šš Qß ɪı Üü Ää

З точки зору кількості літер та можливих нерегулярностей, відмінностей між такою латиницею та сучасною кирилицею ми не побачимо. Хоча алфавітні основи різні.

Koly vy zhaduvaly pro perevedenja na latynytsju, to vy zhaduvaly pivdnjoSerbsjku. Ale tam bulo ne pobukveno, napryklad lj v kyrylytsji odnoju bukvoju, a tam dvoma. Takog navitj koly je bukva đ, to podekoly pycutj jak dj. Movtcu pro dg i dz.

Tomu pobukvenoho ne treba, a z takym pidxodom: kyrylytsja → sproctcena kyrylytsja (ta g drahomanivka pidijde) → latynytsja.

Jakctco xtosj ne znaje, ctco take drahomanivka, to tsje rozctceplenja ctc i jotovanyx na vidpovidni zvuky. Tomu koly braty vac pryklad, to vyjclo b ctybu:

  Аа Бб Вв Гг Ґґ Дд Ее Жж Зз Ии Іі Йй Кк Лл Мм Нн Оо Пп Рр Сс Тт Уу Фф Хх Цц Чч Шш Ьь
  Aa Bb Vv Hh Gg Dd Ee Žž Zz Yy Ii Jj Kk Ll Mm Nn Oo Pp Rr Ss Tt Uu Ff Xx Cc Čč Šš ɪı

Ale maju dekotri zauvahy: krapkova i moge (v bahatjox cryftax) zljipaty sja v liqatury, jak v fi, tcerez ctco mogna zltumatcyty jak .

P.Y. написав:

Власне, й англійський 26-літерний — також алфавіт на основі латинського: літера W в класичній латині не використовувалась і була додана для запису германського звуку вже після завоювання Риму варварами.

Tsjikavo, ge moja latynka ne maje w. Ale v klasytcnij latyni bahato tcoho ctce ne vgyvaje sja, napryklad, jakctco ne pomyljaju sja: u, a dekotri bukvy prosto zapysuvaly etymoloqytcno z hretsjkoji movy.

10 775 Востаннє редагувалося P.Y. (30.03.2020 21:27:30)

Re: Тема для розмов.

Koly vy zhaduvaly pro perevedenja na latynytsju, to vy zhaduvaly pivdnjoSerbsjku. Ale tam bulo ne pobukveno, napryklad lj v kyrylytsji odnoju bukvoju, a tam dvoma. Takog navitj koly je bukva đ, to podekoly pycutj jak dj. Movtcu pro dg i dz.

Це так, але згадані диграфи тлумачаться як самостійні літери, і в юнікоді передбачені навіть окремі кодові позиції для цих диграфів: dž, lj, nj. Якщо дотримуватись такої їх передачі, то автоматичне конвертування в обох напрямках між сербохорватськими алфавітами стає максимально простим.

Tomu pobukvenoho ne treba, a z takym pidxodom: kyrylytsja → sproctcena kyrylytsja (ta g drahomanivka pidijde) → latynytsja.

Ідея була в тому, щоб мати змогу передавати без втрат латиницею будь-який кириличний текст, записаний сучасним чи близьким до нього алфавітом, навіть якщо правопис відрізнятиметься — цією ж латиницею можна передати також і желехівку, і кулішівку*. Залежність від спрощеної кирилиці не гарантує такої свободи дій, а також може завадити зворотньому перетворенню з латиниці на неспрощену кирилицю.

*) Насправді незовсім так: кулішівка мала літери Ъ та Ё, для передачі яких латиницю доведеться розширити: Œ або Ö для Ё, кінцевий Ъ можна видаляти/додавати автоматично після кінцевих приголосних, усередині слова транслітерувати як ’ (апостроф). Власне, Желеховський включив Ё і в свій алфавіт, але, схоже, ніде її не використовував.

10 776 Востаннє редагувалося 221VOLT (30.03.2020 22:45:16)

Re: Тема для розмов.

koala написав:

Україні не має жодного сенсу записувати "україномовних росіян" в окрему захищену законом категорію - вони мають самі визначитися, хто вони: українці, росіяни чи окремий народ.

:) якби не цитата про кубанських уродців-"козаків",
можна би було подумати, що ви про Донецьк пишете

----

*DANCE* як цікаво -- знову розпочали розмову про букви, та цього разу попали в кубанців
куди наступного разу ця ниточка доведе?))

-----


в чім сенс міняти шило на мило?

кирилицю на латиницю -- невже це щось корисне принесе?
винесе Україну на топ1 рейтингів економіки та технологій?
ні? ну то навіщо це?))

-----

ExPy написав:

Ну тодi  альтернативний варiант. Посилити вивчення англiйськоi мови, зробивши другою державною чи щось таке. Що тут скажете?

англійська і так вже є де-факто -- міжнародна, друга державна та стандарт
ви не помітили?)
навіщо підтримувати те, що не падає, і саме по собі добре стоїть?)

10 777

Re: Тема для розмов.

cheappi386 написав:

Чи буде цікава комусь така тема - OpenVPN з'єднує два хоста у одну мережу, через інтернет, без статичного (чи навіть "сірого") айпі ?

*THUMBSUP* так, це цікава тема!)

10 778

Re: Тема для розмов.

Vo_Vik написав:
P.Y. написав:
Vo_Vik написав:

Гм. А ви багато в неті сканів шукаєте і читаєте?

Я інколи читаю паперові книжки.

Тобто ви вважаєте, що коли роблять передрук, то спочатку сканують стару книжку?

Якщо оригінал робився в докомп'ютерні часи, а перевидати його треба іншим алфавітом, то які є варіанти?
а) Відсканувати, розпізнати, виправити помилки розпізнавання та одруки, конвертувати в інший алфавіт,
б) Перенабрати увесь текст руками від першої до останньої сторінки.

Подякували: 221VOLT1

10 779

Re: Тема для розмов.

Трохи страданув частотним аналізом.
https://replace.org.ua/post/139449/#p139449

10 780 Востаннє редагувалося ostap34PHP (31.03.2020 00:01:35)

Re: Тема для розмов.

Vo_Vik написав:

Гм, а хтось бачив якісь алгоритми, які аналізують наскільки той чи інший алфавіт підходить тій чи іншій мові чи діалекту. Для української навіть частоту вживання букв, в якій включений апостроф знайти неможливо, не кажучи вже про комбінації звуків.

Прихований текст

Можливо щось схоже, https://github.com/landrok/language-detector

Подякували: 221VOLT1