В той час як традиційні моделі багатошарового перцептрону (БШП) успішно застосовувалися для розпізнавання зображень, через повну зв'язність між вузлами вони страждають від прокляття розмірності[en], і, отже не дуже добре масштабуються на зображення вищих роздільностей.
Шари ЗНМ, розташовані в 3 вимірах
Наприклад, у наборі CIFAR-10 зображення мають розмір лише 32×32×3 (ширина 32, висота 32, 3 канали кольору), тому один повноз'єднаний нейрон у першому прихованому шарі звичайної нейронної мережі матиме 32*32*3 = 3 072 вагові коефіцієнти. Проте зображення 200×200 призведе до нейронів, що мають 200*200*3 = 120 000 вагових коефіцієнтів.
Такі мережеві архітектури не беруть до уваги просторову структуру даних, розглядаючи вхідні пікселі, що є далеко і близько один від одного, на рівних засадах. Очевидно, що повна зв'язність нейронів у рамках розпізнавання зображень є марнотратною, а величезна кількість параметрів швидко веде до перенавчання.
Згорткові нейронні мережі є біологічно натхненими варіантами багатошарових перцептронів, розробленими для імітації поведінки зорової кори. Ці моделі пом'якшують виклики, поставлені архітектурою БШП, використовуючи сильну просторово локальну кореляцію, присутню в природних зображеннях. На противагу до БШП, ЗНМ мають наступні відмітні ознаки:
Тривимірні ємності нейронів. Шари ЗНМ мають нейрони, впорядковані в 3 вимірах: ширина, висота та глибина. Нейрони всередині шару є з'єднаними з невеликою областю попереднього шару, що називається рецептивним полем. Для формування архітектури ЗНМ складаються різні типи шарів, як локально, так і повноз'єднані.
Локальна з'єднаність: відповідно до концепції рецептивних полів, ЗНМ використовують просторово локальну кореляцію шляхом застосування схеми локальної з'єднаності між нейронами сусідніх шарів. Ця архітектура таким чином забезпечує, що навчені «фільтри» виробляють найсильніший відгук до просторово локального вхідного образу. Складання багатьох таких шарів веде до нелінійних «фільтрів», що стають все більше «глобальними» (тобто, чутливими до більшої області піксельного простору). Це дозволяє мережі спочатку створювати добрі представлення дрібних деталей входу, а потім збирати з них представлення більших областей.
Спільні ваги: В ЗНМ кожен фільтр відтворюється на усьому зоровому полі. Ці відтворені вузли використовують спільну параметризацію (вектор ваги та упередження) та формують карту ознаки. Це означає, що всі нейрони в заданому згортковому шарі виявляють в точності одну й ту ж саму ознаку. Відтворені вузли таким чином дозволяють ознакам бути виявленими незалежно від їхнього положення в зоровому полі, забезпечуючи таким чином властивість інваріантності відносно зсуву.
Разом ці властивості дозволяють згортковим нейронним мережам досягати кращого узагальнення на задачах бачення. Також допомагає й поділ ваги, різко зменшуючи кількість вільних параметрів, яких треба навчатися, знижуючи таким чином вимоги до пам'яті для роботи мережі. Зниження обсягу пам'яті уможливлює тренування більших, потужніших мереж.