1

Тема: Потрібна допомога у виборі бд для великих об'ємів

Привіт усім!

Суть мого болю. Планується запис порядку 100-200к рядків новинних стрічок (включаючи текст новин) на добу. Далі вибірка по первинному ключу, категорії, іноді за датою, (скоріше за все ще якось). В середньому десь 100-200 мб на добу.

Так само буде таблиця, яка містить реакцію користувачів на матеріал (лайк/дізлайк). Потрібно буде вибирати ці дані для подальшого аналізу. Сама таблиця мабуть буде невелика (id рядка, id користувача, id новини, 1/0, датачас), але з дуже великою кількістю рядків - близько 1млн на добу.

Ніколи не працював з такими величезними обсягами даних, підкажіть яку бд вибрати для цього? Поки що зупинився на postgres vs mongo, чесно кажучи не уявляю як кожна з них впорається.

2

Re: Потрібна допомога у виборі бд для великих об'ємів

1млн на добу ≈ 41667 на годину ≈ 700 на хвилину ≈ 12 на секунду.
Навіть якщо в піковому стані буде 1200 на секунду, то все одно із цим має навіть MySQL впоратися. Ну, в піках трохи підгальмує.
Інше питання - які будуть запити до бази. Тобто їх же треба буде якось обережно, без зайвого навантаження, індексувати. І тут буде проблема.
Я б радив postgres.

Декалог програміста-початківця: https://replace.org.ua/post/132988/
Подякували: leofun01, 221VOLT, shabaranskij3

3

Re: Потрібна допомога у виборі бд для великих об'ємів

1млн на добу ≈ 41667 на годину ≈ 700 на хвилину ≈ 12 на секунду.

трохи не так :)
одна частина буде віддавати контент, інша займатись парсингом за розкладом, тобто кожні 30-60 хвилин будуть пікові навантаження. Звісно, можна якось це згладжувати.

Інше питання - які будуть запити до бази. Тобто їх же треба буде якось обережно, без зайвого навантаження, індексувати. І тут буде проблема.

Про запити складно, поки що є тільки загальне розуміння, що потрібно. Багато буде залежати від того, як все піде.