1

Тема: залізо під GPU*x

Дозріваю до того, що мені для LLM потрібно вживане залізо під GPU, і то декілька GPU, мінімум 2 з можливістю подальшого розширення.

Пошуки поки привели до такої конфігурації

Workstation: Dell Precision 7920 Tower
CPU: 2× Xeon Gold 5218 (Gold/Silver dual)
RAM: 128GB DDR4 ECC RDIMM (8× 16GB)
Storage: 512GB NVMe (OS + models) + HDD
PSU: 1400W (stock Dell)
OS: Ubuntu 24.04

GPU: RTX 3090 24GB (ASUS TUF / MSI Suprim / Gigabyte Eagle)
PCIe: x16 slot, triple-slot

Вартість:  Workstation €250–350 / GPU €400–500
Разом:        ~€700–800

Це дозволить ганяти локально моделі рівня 3B Q4, а також 7B Q4 (реалістично, однак повільніше).

Потестив на значно слабшому залізі, перші враження "ок, треба тестувати далі".

Проблема вибраної поки конфігурації - там три слоти під GPU, однак через особливості самих комплектуючих реально поміститься лише 2 (не знаю чи існує щось типу "продовжувачів" для слотів).

А якщо все буде добре і відкладу під це діло більший бюджет, тоді можна зачекати і думати вже про щось солідніше, з більшим запасом розширення GPU.

При цьому зацікавився можливостями розширення у співвідношенні до приросту ефекту - а він (приріст) падає:

Потужність

│  ████ ← 2× RTX 3090 (~€1,200)
│  ████
│  ████ ████ ← 2× RTX 4090 (~€3,500)
│  ████ ████
│  ████ ████ ████ ← 4× A100 (~€20,000+)
│  ████ ████ ████ ████ ← +
└──────────────────────────────────────
   €750  €1.2k  €3.5k  €20k+

Такі поки сирі думки, оскільки я зовсім не залізячник і не знаю з чого толком почати. Тому спершу спробував зібрати хоч якусь інформацію, далі прийшов з цим сюди. Не певен на що саме я розраховую почути у можливих відповідях, мабуть просто буду додавати роздуми, знахідки, врешті пізніше напишу чи щось втілилося в життя і які результати.

2

Re: залізо під GPU*x

frz написав:

Дозріваю до того, що мені для LLM

Я чи можна поцікавитись, для яких задач?

frz написав:
CPU: 2× Xeon Gold 5218 (Gold/Silver dual)
RAM: 128GB DDR4 ECC RDIMM (8× 16GB)
Вартість:  Workstation €250–350

Хочете сказати, що 128 GB DDR4 пам'яті + 2× Xeon Gold 5218 вийде у 350 євро? Це де такі ціни?
І нащо вам 2× Xeon Gold?

Я так розумію, ви хочете жирні LLM крутити на CPU та RAM? Я б так не робив. Ви отримаєте дуже повільну кількість токенів. Якщо ви хочете, щоб LLM була як агент, а не просто чат-бот, то це буде дуже критично. Я б радив докласти і взяти "жирнішу" GPU, щоб крутити LLMки саме на ній, тим більше зараз компактні моделі дуже навіть гарно себе показують.

3 Востаннє редагувалося frz (Сьогодні 12:10:48)

Re: залізо під GPU*x

wander написав:

для яких задач?

В основному обфускація масивів даних перед тим як скерувати в щось потужніше онлайн (не всі дані можна ось так просто надсилати напряму як є).

де такі ціни?

Німецький eBay, з якого в мене тут зручна доставка.

нащо вам 2× Xeon Gold?

В мене зародкове розуміння, що саме оптимально, спробую подумати і відповісти.

хочете жирні LLM крутити на CPU та RAM?

Так - помірно жирніші, але ні - CPU тут мало допоможе, лише для деяких допоміжних процесів.

докласти і взяти "жирнішу" GPU

Це має сенс, я тому і написав щоб мене закидали тапками разом з кращими ідеями.

4 Востаннє редагувалося Torbins (Сьогодні 14:48:21)

Re: залізо під GPU*x

frz написав:

Проблема вибраної поки конфігурації - там три слоти під GPU, однак через особливості самих комплектуючих реально поміститься лише 2 (не знаю чи існує щось типу "продовжувачів" для слотів).

Подовжувачі існують, але лишається іще питання додаткового живлення для відях. Рідний PSU повинен мати достатню кількість роз'ємів.
Також можна замінювати рідні радіатори рідинним охолодженням. Щось типу такого: https://www.corsair.com/ww/en/c/custom-liquid-cooling/gpu-water-blocks Більшість таких модулів однослотові. Але вони зазвичай розраховані лише на одну конкретну модель відяхи, це сильно обмежує список моделей відях які ви можете купити.

wander написав:

І нащо вам 2× Xeon Gold?

Може бути таке, що половина слотів під відяхи обслуговується одним процесором, а інша - другим. Відповідно з одним процесором половина слотів перестане працювати. Інтел каже, що Xeon Gold 5218 має 48 ліній PCI-E, а материнка в Dell Precision 7920 Tower має 4 слоти PCI-Ex16. Тому тут не зовсім зрозуміло як вони розведені. А ще ж частина ліній витрачається на чіпсет та NVME. З іншого боку, для AI висока швидкість підключення відяхи не потрібна. Для більшості задач PCI-E 3.0 x4 буде вистачати з головою.

Якби я робив щось подібне, то шукав би сервак з одним процесором і дві відяхи. Також я б придивився до відях від AMD, бо їхній ROCm уже добре розвинувся, і скоріше за все без проблем потягне усі потрібні мені моделі. Питання лише в різниці цін порівняно з nVidia.