1

Тема: Українська мова та її обробка

Вітаю, товариство!

Наразі працюю над комп’ютерною обробкою українських слів (як-от визначення відміни та групи, до якої належить слово; словозміна; розбір повідомлення тощо). Чи є в когось подібні напрацювання? Чи хтось ще цікавиться цим напрямком?

2

Re: Українська мова та її обробка

Словник із визначеними відмінною, групою... і т.д. вже є, але, нажаль, ніякого API до БД цього словника не існує.

У мене навіть диск був цього словника, але все ж він не підходить для автоматичної обробки. Я спеціально цей диск брав, здається, у тих, хто його створює - у бібліотеці ім. Вернадського. На моє глибоке здивування, вони зі мною говорили на кацапській. На моє запитання "чи можна доступитись до БД словника програмно", мені сказали "Вы же знаете, что это небезопасно для национальной безопасности Украины?"...

Такі справи...

Подякували: koala, Djalin, palyvoda3

3

Re: Українська мова та її обробка

Чиновникус вульгаріс. Щоб дати API, треба поворушити своїм задом. За це йому нічого позитивного не буде, а по шапці можуть дати, от і видумують.

А чому диск не підходить для автоматичної обробки?

Подякували: Djalin1

4

Re: Українська мова та її обробка

quez написав:

Чиновникус вульгаріс. Щоб дати API, треба поворушити своїм задом. За це йому нічого позитивного не буде, а по шапці можуть дати, от і видумують.

А чому диск не підходить для автоматичної обробки?

Тому що там exe'шник призначений для вставновлення стільникової програми - аналога того, що є онлайн. Здається я раніше шукав і не знайшов в системних файлах цієї програми відповідної БД.

5

Re: Українська мова та її обробка

А якщо банально спарсити сайт?

6

Re: Українська мова та її обробка

Дивно, у мене в локальній версії в реєстрі на 2 тисячі слів більше.

7

Re: Українська мова та її обробка

Sensetivity написав:

А якщо банально спарсити сайт?

А ви спробуйте спарсити. Там навіть URL сторінки для конкретного слова немає, все контролює JavaScript, на сервак відправляється купа закодованих даних AJAX'ом...

8

Re: Українська мова та її обробка

В принципі, існує подібний ресурс, але більш придатний для парсингу — http://www.slovnyk.ua/
Крім того, сподіваюсь, десь же має існувати цей же контент у вигляді бази даних чи чогось подібного...

Що ж до http://lcorp.ulif.org.ua/dictua/ — абсолютно незручний ресурс, навіть з точки зору користувача веб-браузера. Колись дуже давно був придатним для використання, але після того, як його зіпсували аяксом, що тоді тільки входив у моду й був іще сирим, стало неможливо навіть дати посилання на якесь слово, крім «привіт». Важко сказати, для чого він потрібен у такому вигляді (вони сподіваються з цього чуда отримати якийсь прибуток?).

9

Re: Українська мова та її обробка

Щось отой Словник.нет не працює. На всіх словах  "DB error"

Подякували: palyvoda1

10

Re: Українська мова та її обробка

ktretyak написав:
Sensetivity написав:

А якщо банально спарсити сайт?

А ви спробуйте спарсити. Там навіть URL сторінки для конкретного слова немає, все контролює JavaScript, на сервак відправляється купа закодованих даних AJAX'ом...

http://replace.org.ua/post/21729/#p21729

Подякували: palyvoda1

11 Востаннє редагувалося palyvoda (07.06.2015 02:25:07)

Re: Українська мова та її обробка

ktretyak написав:

Словник із визначеними відмінною, групою... і т.д. вже є, але, нажаль, ніякого API до БД цього словника не існує.

У мене навіть диск був цього словника, але все ж він не підходить для автоматичної обробки. Я спеціально цей диск брав, здається, у тих, хто його створює - у бібліотеці ім. Вернадського. На моє глибоке здивування, вони зі мною говорили на кацапській. На моє запитання "чи можна доступитись до БД словника програмно", мені сказали "Вы же знаете, что это небезопасно для национальной безопасности Украины?"...

Такі справи...

Підстав „Росии“ замість „Украины“ й буде все правильно… Таке враження, що це навмисно робиться.

Особливо „фахово“ виглядає їхній застосунок, що має назву ВЛЛ:
http://i.imgur.com/5Ksasqb.png
На скільки я знаю, невірною може бути дружина, але ж не пароль.

Сподіваюся, їхній словник не містить помилок.

12 Востаннє редагувалося palyvoda (07.06.2015 08:45:18)

Re: Українська мова та її обробка

Деколи словник із відмінами не може зарадити всім викликам, які стоять перед розробником, оскільки має визначений перелік слів. Система на його основі не працюватиме з рідкісними йменами та словами чужомовного походження, які ще не ввійшли до літературної мови

Мова —  це сукупність слів і правил, за якими одні слова вступають у зв’язок з иншими. Тому, наприклад, для визначення відміни не потрібно мати в БД «слово-відміна-група», достатньо написати функцію, яка, приймаючи слово та рід, визначатиме його приналежність до відміни та групи. Знаючи відміну та групу, можна відміняти слова.
Описаний підхід не годиться для всіх проєктів, оскільки потребує вказання роду, до якого належить слово (навчити цьому систему майже неможливо). У моїй системі рід відомий, тому я застосовую цей спосіб.

Щодо попереднього допису. Знайшов помилки й у словнику (КВ має бути „тату“):
http://i.imgur.com/frrOmr6.png

13 Востаннє редагувалося koala (07.06.2015 08:54:16)

Re: Українська мова та її обробка

Дрібниця. Ви краще поясніть, чому родовий відмінок "Лев Толстой" - "Льва Толстого", а не, як має бути за правилами, Лева Толстоя. Особливо на фоні графа Фонтлероя.

14 Востаннє редагувалося palyvoda (07.06.2015 09:01:11)

Re: Українська мова та її обробка

koala написав:

Дрібниця. Ви краще поясніть, чому родовий від "Лев Толстой" - "Льва Толстого", а не, як має бути за правилами, Лева Толстоя. Особливо на фоні графа Фонтлероя.

Мабуть, це не здатні пояснити навіть ті „мовознавці“, що придумали такий виняток.

Ось такий безлад у правилах найбільше шкодить обробці повідомлень. Я взагалі виступаю за повернення правопису  1928-го. Хоча й до нього існують питання, але він кращий за чинний.

Подякували: koala1

15

Re: Українська мова та її обробка

Є також Проєкт, його намагаються (принаймні, частково) на СТБ популяризувати.

Подякували: palyvoda1

16

Re: Українська мова та її обробка

koala написав:

Дрібниця. Ви краще поясніть, чому родовий відмінок "Лев Толстой" - "Льва Толстого", а не, як має бути за правилами, Лева Толстоя. Особливо на фоні графа Фонтлероя.

Тому що ви придумали правило і намагаєтесь підігнати під нього мову. Вашого Лева Толстоя не зрозуміє абсолютно ніхто.

17 Востаннє редагувалося palyvoda (07.06.2015 09:44:39)

Re: Українська мова та її обробка

koala написав:

Є також Проєкт, його намагаються (принаймні, частково) на СТБ популяризувати.

Так, гарний проєкт. Уласне, він щодо більшості правил перетинається зі скрипниківкою.

На скільки мені відомо, СТБ припинила використовувати його ще в 2013 році.

18 Востаннє редагувалося palyvoda (07.06.2015 11:35:00)

Re: Українська мова та її обробка

quez написав:
koala написав:

Дрібниця. Ви краще поясніть, чому родовий відмінок "Лев Толстой" - "Льва Толстого", а не, як має бути за правилами, Лева Толстоя. Особливо на фоні графа Фонтлероя.

Тому що ви придумали правило і намагаєтесь підігнати під нього мову. Вашого Лева Толстоя не зрозуміє абсолютно ніхто.

Словозміна в українській мові відбувається зміною/додаванням/вилученням суфіксів та закінчень: Лева Толстоя
ая).
1. Мені не відомо жодного правила в українській мові, відповідно до якого з кореня можна було б вилучати голосні звуки. Тим паче, що тут ще й, невідомо звідки, з’являється пом’якшення приголосного. Виходить повна калька з московитської, бо там у слові Лев е відповідає ье. Після того, як воно вилучається, залишається Льва.
2. -ой є закінченням в московитській мові, але не в українській. Українським відповідником цього закінчення є -ий. Якби прізвище містило це закінчення (Толстий), то відмінялося б як Толстого, а оскільки не містить, то воно має відмінятися саме так, як написав зверху koala.

19

Re: Українська мова та її обробка

palyvoda написав:
quez написав:
koala написав:

Дрібниця. Ви краще поясніть, чому родовий відмінок "Лев Толстой" - "Льва Толстого", а не, як має бути за правилами, Лева Толстоя. Особливо на фоні графа Фонтлероя.

Тому що ви придумали правило і намагаєтесь підігнати під нього мову. Вашого Лева Толстоя не зрозуміє абсолютно ніхто.

Словозміна в українській мові відбувається зміною/додаванням/вилученням суфіксів та закінчень: Лева Толстоя
ая).
1. Мені не відомо жодного правила в українській мові, відповідно до якого з кореня можна було б вилучати голосні звуки. Тим паче, що тут ще й, невідомо звідки, з’являється пом’якшення приголосного. Виходить повна калька з московитської, бо там у слові Лев е відповідає ье. Після того, як воно вилучається, залишається Льва.
2. -ой є закінченням в московитській мові, але не в українській. Українським відповідником цього закінчення є -ий. Якби прізвище містило це закінчення (Толстий), то відмінялося б як Толстого, а оскільки не містить, то воно має відмінятися саме так, як написав зверху koala.

І тим не менш, ніхто не відміняє це слово так, як ви написали: гугл дав аж 51 результат, половина з яких — російською. Це означає, що ваші правила розбігаються з реальністю.

20

Re: Українська мова та її обробка

palyvoda написав:

1. Мені не відомо жодного правила в українській мові, відповідно до якого з кореня можна було б вилучати голосні звуки. Тим паче, що тут ще й, невідомо звідки, з’являється пом’якшення приголосного. Виходить повна калька з московитської, бо там у слові Лев е відповідає ье. Після того, як воно вилучається, залишається Льва.

бра́ти — беру
гнати — жену