Bartash написав:Однак не факт, що для програми-словника ці поняття мають відрізнятися (текст і текст з пунктуацією чи пробілами - не все одно?).
Не все одно. Для простого словника ми можемо провести лексичний аналіз тексту (розбити на слова), і дивитись кожне слово окремо. Для фразеологізмів - дивитись по два слова, чи по три слова, чи по чотири слова, або взагалі реалізувати алгоритм Ахо-Корасік для якоїсь бази даних. Або зробити свою базу даних на основі префіксного дерева.
І крім того, якщо слів наприклад лише 1000, то можливих комбінацій з цих слів по два може й мільйон... Питання як навчити свій перекладач їх перекладати так щоб руками не вводити - дуже цікаве питання. От я для цього вікіпедію підключав, хоча як вже вище зауважували - в вікіпедії бракує дієслів і багатьох інших потрібних слів. Зате вона сильна власними назвами.