Тема: По якому алгоритму можна вирахувати пов'язані мітки
Раніше не звертав увагу на мітки на stackoverflow, але зараз, коли зайнявся власним схожим проектом, цікаво стало: може вже є якийсь відомий алгоритм підрахунку пов'язаних міток? І хоча мені цей алгоритм зараз не потрібен, бо в моєму випадку це можна значно простіше зробити, але спортивний інтерес все таки є.
Для прикладу візьмемо мітку JavaScript. На даний момент stackoverflow каже, що питань з цією міткою 809 050 штук, і в правій колонці трохи нижче надає пов'язані мітки: jquery × 283354, html × 143526 ... - це кількість питань на stackoverflow, які йдуть в поєднанні з вже вибраною міткою JavaScript.
Якщо далі вибрати, скажімо, angularjs, то видається інший список пов'язаних міток. І якщо вибирати так само далі потрібні мітки, то кількість варіантів скорочується аж до одиниць.
Все було б просто, якщо б статистику потрібно було вирахувати для невеликої кількості поєднання: пари, трійки, четвірки, чи п'ятірки міток, які згадуються у питаннях одночасно.
Але коли маємо навіть 10 міток, то вирахувати поєднання різних їх варіантів хоча й не дуже складно, але вже не просто. Що вже тоді казати коли на ресурсі тисячі міток. Тут мабуть без спеціального математичного алгоритму не обійтись.
Ніхто не в курсі як це робиться?