41

Re: Потрібно накінець створити український ШІ

Добре, але поки що я працюю над іншим проектом

42

Re: Потрібно накінець створити український ШІ

Тримайте в курсі.

43

Re: Потрібно накінець створити український ШІ

javascriptIsLife написав:

Абсолютно впевнений що 99% школярів які використовують ChatGPT роблять це для того щоб самим нічого не робити. Давайте за створення візьметеся ви. Через певний час галас довкола ChatGPT схлине і воно буде використовуватися для того щоб краще і дешевше засирати WWW і заробляти ще більше грошей на всякому SEO. Або для якихось подібних цілей. Сподіваюся на те що пошукові системи не переведуть все на цю фігню. Одноманітні картинки згенеровані цією фігнею які використовуються в якості ілюстрацій для новин і різноманітних публікацій це прям неймовірне космічне майбутнє з ШІ і зовсім не марна трата ресурсів.

свою нішу воно займе, переписати скрипт з пайтон на ts виходить так сяк, так й базові речі "вигадує" непогано.

44

Re: Потрібно накінець створити український ШІ

Обговорення розвитку штучного інтелекту завжди викликає суперечки - одні бачать у ньому перспективи для освіти й бізнесу, інші хвилюються через вартість та вплив на економіку.

Для тих, хто хоче відстежувати практичні застосування ШІ у сфері аукціонів та колекціонування, є Perfectum Club. Там публікують календарі міжнародних торгів, аналітику та приклади інтеграції нових технологій в екосистемі Perfectum Club.

Це дозволяє зрозуміти, як саме штучний інтелект поступово входить у різні екосистеми й допомагає користувачам орієнтуватися на ринку.

45

Re: Потрібно накінець створити український ШІ

Я не переходитиму за вашими синенькими словами з підкресленням, поки не розкажете, яка ви модель і на якому залізі можете працювати.

46

Re: Потрібно накінець створити український ШІ

Перечитую цю тему — два роки по тому багато чого змінилося в багатьох питаннях, тогочасні погляди на перспективи ШІ (як автора теми, так і його критиків) виглядають дещо наївними.

Стартап, фінансування і т.д. — як і раніше, словосполучення «український стартап» є майже оксюмороном. Тобто, так, якщо вас узяло під крило велике державне цабе зі схемою відмивання крадених бюджетних грошів, то ваш стартап злетить, принаймні, у фінансовому плані, але нікому не буде потрібен як продукт. Здоровий глузд підказує, що про інвесторів слід забути.

Успішний український проект — це, як правило, не стартап з інвестиціями, а народний проект, розбудовуваний знизу, з мінімумом зовнішніх інвестицій. Файлозвалища, онлайн-бібліотеки, торент-трекери — всі вони успішно розвивалися, наповнювалися контентом, і лише пряме втручання держави ставило крапку на їх існуванні. Як би перенести цю стратегію на ШІ (якщо це можливо)? Легкі LLM у наш час достатньо легкі, щоб їх можна було ганяти навіть на слабкому залізі, і завантажити їх можна абсолютно безкоштовно — інша річ, вони менш функціональні, ближче до того, чим були топові ШІ кілька  років тому. Донавчати на своїх даних — вимоги до заліза більші, але теж ніби нічого нереалістичного. Тобто, український файн-тюнінг — це те, що вже може стартувати без супер-пупер-інвестицій. Мені вже потрапляли до рук українські LLM на базі моделі Gemma3 — загалом враження непогане, але базова модель вже й без того цілком пристойно розмовляє українською, тому різниця не така помітна (от якби навчили так Qwen, особливо в легких модифікаціях...).

Але це поки що нішевий напрямок. Більшість досі думає, що для ШІ потрібен хмарний сервіс. Що ж, якщо так, то вам потрібен інвестор, якому треба мити гроші, і демпінгова маркетингова модель: запропонуйте безкоштовно (і, бажано, без реєстрації) більше, ніж пропонують провідні ШІ-сервіси. Так, найкрутіш моделі зараз закриті, але хмарний сервіс, що надає доступ до великих моделей з відкритим кодом, вже буде цілком життєздатним і функціональним. Плюс там різні варіації на тему кооперації між моделями, файн-тюнінгу і т.д. Але ключ до успіху — шара (на жаль, це не дуже себе окуповує фінансово, але реальний фінансовий успіх тут і непотрібен). Вільний доступ до API, збереження/відновлення розмов, необмежена робота з картинками тощо — і ось ваш сервіс уже виганяє провідні західні ШІ з їхніх ніш.

Щодо експертної системи, енциклопедії і т.п. Модель на чомусь навчається — їй згодовують зразки з певною мовою, певними концепціями, певною ідеологією. Тобто, можна зробити LLM з певним світоглядом, набором закладених у неї фактів — багато в чому це нагадує наповнення енциклопедії. Так, звичайно, будь-який просунутий ШІ-сервіс також уміє шукати в мережі, але вбудовані в модель факти, вочевидь, він видаватиме в першу чергу.

Що ще точно не спрацює, так це асоціація з державними структурами. Ви б хотіли, щоб ваш ШІ-чатик читали силовики, а потім прийшли по вас з офіційними скріншотами, коли вас кинула дівчина, ви напилися й наговорили штучному інтелекту всякого лайна про все, що тільки бачили? Або коли ви просто експериментували з можливостями цензури і де вони проходять? Ні? Та невже?! Тобто, спілкування з державним ШІ стає гіпервідповідальним, користувач почувається затиснутим, для розважального спілкування звертається до закордонних ШІ, а популярність національного ШІ в такому виконанні прямує до популярності Резерву-плюс та веб-сторінки податкової служби, тільки без механізму примусу.

47 Востаннє редагувалося ostap34PHP (19.06.2026 13:46:40)

Re: Потрібно накінець створити український ШІ

Announcing MamayLM, an efficient state-of-the-art Ukrainian LLM
April 23, 2025
https://huggingface.co/blog/INSAIT-Institute/mamaylm


Можу протестувати 9B модель на своєму 16GB M1 Pro, скидайте запити якщо цікаво.

48

Re: Потрібно накінець створити український ШІ

P.Y. написав:

словосполучення «український стартап» є майже оксюмороном.

Grammarly, GitLab, Reface, Petcube, Preply - і це лише "топ 5". Чи рахується лише суто ТзОВ? Бо ці перелічені, звісно, юридично поза ненькою.

49

Re: Потрібно накінець створити український ШІ

frz написав:
P.Y. написав:

словосполучення «український стартап» є майже оксюмороном.

Grammarly, GitLab, Reface, Petcube, Preply - і це лише "топ 5". Чи рахується лише суто ТзОВ? Бо ці перелічені, звісно, юридично поза ненькою.

Лише з юридичною особою в Україні.

50

Re: Потрібно накінець створити український ШІ

HetmanNet написав:
frz написав:
P.Y. написав:

словосполучення «український стартап» є майже оксюмороном.

Grammarly, GitLab, Reface, Petcube, Preply - і це лише "топ 5". Чи рахується лише суто ТзОВ? Бо ці перелічені, звісно, юридично поза ненькою.

Лише з юридичною особою в Україні.

Ajax Systems, MacPaw, Creatio, Readdle, Serpstat

51

Re: Потрібно накінець створити український ШІ

Чи на сьогодні має сенс витрачати час та бюджет на розробку державної LLM? Нагадаю, що Київстар планує завершення робіт по держзамовленню на листопад 2026 року і для майбутньої системи на березневому голосуванні в Дія вже навіть обрали назву - Сяйво (Siaivo).

Коли проект лише запускали, то спершу планували використати Llama від Meta, але врешті обрали Gemma 3 від Google, яка себе добре зарекомендувала як база для інших українських LLM - MamayLM (на честь легендарного козака Мамая) і LapaLLM (на честь всесвітньовідомого київського професора Валентина Лапи, який заклав основи сучасного машинного навчання). Окрім платформи ці три LLM мають спільну концепцію доробок - українська в якості базової для токенізатору, претрейнінг вагів на корпусах українських текстів та додатковий файнтюнінг на чутливих темах типу "Чий Крим?".

Та на відміну від Київстару, у інших розробників українських LLM не було контракту з державою та бездонних бюджетів, а тому вони вже давно опублікували свої роботи на HuggingFace для усіх охочих. А також створили бенчмарки для порівняння якості роботи LLM з українською мовою, де на лідборді зараз дуже цікаві результати: https://lnkd.in/duaT8rdB

Очевидно, що в тестах на володіння українською мовою українські LLM на будуть на голову вищі за свою базову Gemma 3, а також за інші схожі опенсурси (окрім Qwen 3, яка несподівано займає перше місце по резюмуванню та є одним з лідерів у перекладах). Але перевага лишається лише якщо ігнорувати появу Gemma 4, яка без жодного додаткового навчання займає перші місця у всіх тестах, а особливо у ЗНО по шкільним предметам.

Якщо Київстар будуть свій довгобуд запускати на Gemma 3, то на кінець року отримаємо результат гірший за сьогоднішню "сиру" опенсорсну Gemma 4, і яким бізнеси будуть користуватись лише під загрозою штрафів за використання інших ШІ.

Якщо Київстар не захоче сидіти на старій моделі, то їм для нової MoE-архітектури треба створити новий токенайзер та проводити донавчання "з нуля". Але де гарантія, що восени не вийде проміжна більш потужна Gemma 4,5 чи взагалі щось абсолютно нове?

Може здатися, що головна проблема в тому, що це Київстар повільний і, не маючи власної команди науковців, місяцями робить те, що інші роблять за тижні.

Але, на мою думку, проблема скоріше у зникненні потреби! Чи потрібно взагалі створювати та підтримувати національні LLM, які будуть добре працювати на "державній" (і погано на інших), коли вже доступні універсальні опенсурсні Gemma і Qwen, які одразу і без донавчання показують експертне володіння одразу українською мовою і усіма мовами нацменшинств?

https://www.linkedin.com/posts/dv-kinas … 6928-4Wtb/

52

Re: Потрібно накінець створити український ШІ

frz написав:

Чи на сьогодні має сенс витрачати час та бюджет на розробку державної LLM? Нагадаю, що Київстар планує завершення робіт по держзамовленню на листопад 2026 року і для майбутньої системи на березневому голосуванні в Дія вже навіть обрали назву - Сяйво (Siaivo).

Коли проект лише запускали, то спершу планували використати Llama від Meta, але врешті обрали Gemma 3 від Google, яка себе добре зарекомендувала як база для інших українських LLM - MamayLM (на честь легендарного козака Мамая) і LapaLLM (на честь всесвітньовідомого київського професора Валентина Лапи, який заклав основи сучасного машинного навчання). Окрім платформи ці три LLM мають спільну концепцію доробок - українська в якості базової для токенізатору, претрейнінг вагів на корпусах українських текстів та додатковий файнтюнінг на чутливих темах типу "Чий Крим?".

Та на відміну від Київстару, у інших розробників українських LLM не було контракту з державою та бездонних бюджетів, а тому вони вже давно опублікували свої роботи на HuggingFace для усіх охочих. А також створили бенчмарки для порівняння якості роботи LLM з українською мовою, де на лідборді зараз дуже цікаві результати: https://lnkd.in/duaT8rdB

Очевидно, що в тестах на володіння українською мовою українські LLM на будуть на голову вищі за свою базову Gemma 3, а також за інші схожі опенсурси (окрім Qwen 3, яка несподівано займає перше місце по резюмуванню та є одним з лідерів у перекладах). Але перевага лишається лише якщо ігнорувати появу Gemma 4, яка без жодного додаткового навчання займає перші місця у всіх тестах, а особливо у ЗНО по шкільним предметам.

Якщо Київстар будуть свій довгобуд запускати на Gemma 3, то на кінець року отримаємо результат гірший за сьогоднішню "сиру" опенсорсну Gemma 4, і яким бізнеси будуть користуватись лише під загрозою штрафів за використання інших ШІ.

Якщо Київстар не захоче сидіти на старій моделі, то їм для нової MoE-архітектури треба створити новий токенайзер та проводити донавчання "з нуля". Але де гарантія, що восени не вийде проміжна більш потужна Gemma 4,5 чи взагалі щось абсолютно нове?

Може здатися, що головна проблема в тому, що це Київстар повільний і, не маючи власної команди науковців, місяцями робить те, що інші роблять за тижні.

Але, на мою думку, проблема скоріше у зникненні потреби! Чи потрібно взагалі створювати та підтримувати національні LLM, які будуть добре працювати на "державній" (і погано на інших), коли вже доступні універсальні опенсурсні Gemma і Qwen, які одразу і без донавчання показують експертне володіння одразу українською мовою і усіма мовами нацменшинств?

https://www.linkedin.com/posts/dv-kinas … 6928-4Wtb/

LLM заради LLM

53

Re: Потрібно накінець створити український ШІ

Gemma 4 в мовному плані дуже непогана, а от Qwen треба ще трохи поганяти по українському корпусу (хоча в Qwen 3.5 порівняно з 2.5 прогрес помітний). Я б сказав, робити «солов'їну LLM» на базі Gemma — справа дещо марна, за пів року-рік нова версія базової моделі обжене ваш файнтюн.

Хоча серед більш нішевих моделей простір для вдосконалення є. Той же Qwen у малорозмірних моделях говорить українською з помітним «акцентом», а коли ця модель ще й відволікається, наприклад, на задачу розпізнавання зображень, якість української може зовсім деградувати.

Прихований текст

Ось приклад аналізу зображення українською мовою від моделі, побудованої на базі Qwen 3.5 0.8B:

https://replace.org.ua/uploads/images/487/d443e6e200d3ebb4f5749372f26a5bf8.png
Дай опис цього зображення

MiniCPM-V-4_6-Thinking-Q4_K_M.gguf написав:

Цекале зображення демонструє художню, ідеалізовану ілюстрацію сусідастого тварина — великого, м’яко-коричневого бобра — що стоїть або сидить на нейтральному, Neutralним тлісі. Вона дзьобне зовнішній бік, поглядавши вправо, і з його правого боку тримає велику, темно-синю, аероспратичну стрільбу. Стрілка має довгу, вертикальну циліндрову трубу, темну металеву корпусу, з видимими деталями, такими як акцент на стрілку та ланцюж, і прилегле до неї зрідкове, темноворохове збиране зовнішні тварини.

Бобровий тіло виглядає приємним та текстуризованим, з м’яким, приглушеним кольором тваринної хвиди та лоска, а його голова та обличня мають м’які, приглушених тонів, контрастуючи з темнішою куттурною частиною. Стрілка, на жаль, виглядає як зовнішній інструмент, майже як армалета, з чітким, реалістичним дизайном, що надає зображенню ідентичності та прикладеності.

На тлісі тонка, елегантна обстановка з нейтральним, нейтральним фоном, що підсилює фокус на тварині та стрільці. Відображення художнього стилю — з сильним контрастом, гармонійними кольорами та майстерним текстуралом — надає зображенню драматичного, ідеалізованого прикладу, що може стосуватися тематичних або фанатичних ілюстрацій.

Загаловно, зображення створює сюрреалістичний, сюрреалістичний та трохи монументальний візуальний нав’язок, оскільки боброве тварини, що зберігає природні елементи, зображене в стилі армалету, створює сучасний контраст та прикладену в綡ку фанатичну або символічну імпресіоністичну композицію.

А ось аналіз трохи іншого зображення від більш потужної моделі Qwen:

Ось третє зображення. Що можна побачити на ньому?
https://replace.org.ua/uploads/images/487/a25d017f939826e3413d01612ee15b60.jpg

Qwen3.5-9B-Q4_K_M.gguf написав:

Це дуже сюрреалістичне (мистецькі) зображення. Ось що можна побачити на ньому:

1.  **Військовий ведмідь:** Головний герой — великий бурий ведмідь, який стоїть на задніх лапах у лісі. Він виглядає дуже серйозним.
2.  **Зброя та обладнання:** Ведмідь одягнений у тактичний жилет (бронежилет) з багатьма кишенями. У лапі він тримає сучасну шалену автомат (штурмову винтовку).
3.  **Дивний фон:** Навколо ведмедя в повітрі ледь помітні зелені рядки тексту або коду. Вони нагадують інтерфейс комп'ютерного терміналу або хакерського сканування. Це створює відчуття, що ведмідь — це частина "цифрового світу" або кібернетичний монстр.
4.  **Атмосфера:** Місце виглядає як густий, туманний ліс.
5.  **Деталі на землі:** Біля коренів дерева праворуч лежить підривний пристрій (граната або міна).

Загалом це виглядає як сценарій для фантастичної ігри або коміксу про військових тварин.

2B-модель на цьому зображенні збилась на англійську (хоча питання було поставлено українською).

Розкажи, що зображено тут

Qwen3.5-2B-Q4_K_M.gguf написав:

This is a surreal image that blends elements of nature, fantasy, and technology. Here is a detailed description:

**The Subject:**
*   A large brown bear stands upright on its hind legs, mimicking a human soldier's posture.
*   The bear is wearing a rugged, tan-colored **tactical vest** with pouches and a belt, giving it a military appearance.
*   It is holding an **assault rifle** (which looks like an AK-style weapon) slung over its shoulder.

**The Setting:**
*   The bear is standing in a **misty, forest environment**. There are tall pine trees and a dirt ground with some fallen leaves.
*   The lighting is somewhat dim, with the green digital elements creating a hazy atmosphere.

**The Visual Effect (The Key Element):**
*   The most distinctive feature is the **green digital overlay**.
*   A stream of "code" or data streams floats around the bear and the background trees.
*   It looks like a **hacker interface** or a futuristic computer terminal. This gives the image a "cyberpunk" aesthetic, mixing a wild animal with a military theme and high-tech technology.

Українське ж розпізнавання зображень від Qwen 3.5 2B виглядає так:

Що тут зображено?
https://replace.org.ua/uploads/images/487/c2153b41e04f42ac2714c233f0a5f146.jpg

Qwen3.5-2B-uncensored-ara.Q4_K_M.gguf написав:

Зображено **великого тигра** (або великої черепахи з великим скребком), яка намагається вбити маленьку суску.

Ось деталі:
1.  **Гигантський тигр:** У центрі зображено велику голову черепахи з великим скребком, яка тримає у лапі довгий, скребкий меч (рапію).
2.  **Суска:** У передньому плані, на псці, стоїть мала суска, яка стоїть на задніх лапах і виглядає напівривалом.
3.  **Окружеж:** Це сухе місце (песка) з кривавою лінією (сміх), в якому тигр рухається і б'є мисливця.

Проте, в чаті якість української мови Qwen загалом краща, ніж під час роботи з зображеннями — схоже, частина моделі, відповідальна за багатомовність, при додатковому навантаженні частково вимикається.

54

Re: Потрібно накінець створити український ШІ

ostap34PHP написав:

Announcing MamayLM, an efficient state-of-the-art Ukrainian LLM
April 23, 2025
https://huggingface.co/blog/INSAIT-Institute/mamaylm


Можу протестувати 9B модель на своєму 16GB M1 Pro, скидайте запити якщо цікаво.

Тестував Mamay 4B. Суб'єктивно — Gemma як Gemma. Краща українська, ніж у Gemma 2, але суттєвої різниці з Gemma 4 не помітив.

LapaLLM — для 16 ГБ дещо важкувата, не літатиме, якість мови — може десь трохи краща, ніж Gemma 4, але важко сказати. Хоча суттєва перевага — краще розуміє український культурний контекст. З усіх LLM, які мені потрапили до рук, лише Lapa правильно відповіла на питання «яку форму має вареник?» (Mamay теж на ньому валиться).

Для чого інші LLM, коли є Gemma? Ну, наприклад, зображення вона аналізує гірше, ніж Qwen — дає гарний атмосферний опис правильною українською, але може пропустити важливі деталі.

Прихований текст

Ось так Gemma бачить зображення військового ведмедя з попереднього повідомлення:

gemma-4-E2B-it-uncensored-Q4_K_M.gguf написав:

Це фотографія, яка передає атмосферу дикої природи та густої порослих лісів.

**Основні елементи опису:**

1. **Центральна фігура:** На передньому плані зображено велику тварину, схожу на **ведмедя** або іншого великого хижого звіра. Тварина має густу, темну, пухнасту шерсть і стоїть на передніх лапах, погляд її спрямований прямо на глядача. Вона займає значну частину нижньої половини кадру.
2. **Середовище та фон:** Сцена розгортається у лісовій місцевості. Фон заповнений темними силуетами дерев, які створюють глибоке, темне та трохи сумне середовище.
3. **Атмосфера:** Картина насичена **туманом або легким туманом**, що створює м'яке, розсіяне освітлення і додає сцені загадковості та таємничості.
4. **Передній план:** Земля, на якій стоїть тварина, показана як темна, волога, глиниста або каміння, що контрастує з темною шерстю звіра.

**Загальне враження:**

Фотографія має **темну, мрійливу та дику атмосферу**. Вона ідеально передає відчуття спокою, ізоляції та глибини лісового простору, натякаючи на зустріч із дикою природою. Освітлення м'яке, підкреслюючи текстуру шерсті та вологий, густий туман.

55

Re: Потрібно накінець створити український ШІ

Чи потрібно взагалі створювати та підтримувати національні LLM, які будуть добре працювати на "державній" (і погано на інших), коли вже доступні універсальні опенсурсні Gemma і Qwen, які одразу і без донавчання показують експертне володіння одразу українською мовою і усіма мовами нацменшинств?

У ніші малих моделей сенс є. Якщо універсальна модель максимально компактна, то українська й решта мов у ній (крім англійської та ще, можливо, кількох топових мов) будуть малопридатними для реального використання — для нормальної української потрібне донавчання.

З іншого боку, надкомпактна модель з гарною українською мовою — це незовсім те, з чим можна носитися як з писаною торбою й подавати як національну гордість. Хіба що вам вдасться запхнути її в кожну українську праску.