Тема: Розбити текст на слова
Є текст. Якоюсь мовою. Або мовами. В Юнікоді. Потрібно знайти в ньому слова. Щоб потім наприклад порахувати. Або щоб зробити перекладач, над яким думають в іншій темі. Просто розбити по пробілах не вийде, бо є ще розділові знаки.
Тут щось пишуть про те як це зробити: http://www.unicode.org/reports/tr29/ , але я не в'їжджаю...
Взагалі, можна було б виділяти слова регулярним виразом "\w+", але ж є апострофи і дефіси. Тому "[\w`-]", якщо якесь падло не поставить інший апостроф, або якийсь правильний символ дефіса замість мінуса.
P.S. А може завести розділ для мовно-незалежних проблем?