Recognition images - Article: Диплом программа распознавание образов c++

Данную статью я посвящаю также распознаванию образов нейронными сетями, но она является своего рода продолжением или, если хотите, расширением статьи по распознаванию образов Письменного Николая, потому что очень много материала перекликается и используется из его публикации. Так вот, так случилось, что ко мне неожиданно подкралось время написания выпускной дипломной работы в универе, и скрепя сердце я начал искать материалы по теме распознавания образов. Задача немного облегчилась, когда мой научный руководитель уточнил тему диплома, звучала она так: «Распознавание образов с помощью нейронных сетей методом обратного распространения ошибки». И вот я после тучи обрушившейся на меня информации, нашел публикацию Николая. Изучив это все хорошенько, я принялся за написание диплома. Конечно, получившаяся программа имеет серьезные отличия. Во-первых, у меня, распознавать образы можно, используя только один метод - «обратного распространения ошибки», в то время как у Николая их было несколько. Во-вторых, у меня программа не для работы с роботом, а для запуска на обычном персональном компьютере (ПК). В третьих, для простоты я сделал так, что распознаваться может только один образ(в моем случае это тоже буквы) в текущий момент времени, а не много и по очереди:) Ну, это из основного. А дальше по ходу статьи я сообщу еще несколько отличий, которые были хоть и не столь масштабны, но все таки имеют достаточное значение, чтобы упомянуть их. Программа использует тот же метод сегментации изображения и, соответственно те же Паскалевские классы QPixels. Но моя задача заключалась в том, чтобы, ко всему прочему, основной код диплома был написан на C++. И тогда я принял решение писать это все на Borland C++ Builder 6.0 потому что (насколько я помню) только в билдере возможно компилировать одновременно Си-шный и Паскалевский код. Не буду описывать здесь математическую базу нейронных сетей, процесса сегментации и прочего(обо всем этом Николай и так уже подробно написал), а опишу только вкратце структуру проги и приложу несколько скринов. Так как класс QPixels написан на паскале, то надо сделать импорт этого *.pas-овского файла в Борландовский проект. Тогда сам Билдер сгенерирует соответствующие *.hpp файлы с описанием этого класса уже на C++ и тогда эти заголовочные файлы уже можно подключать в коде и юзать спокойно этот класс. Как видите – вроде не очень сложно. Дальше интересней… Я хотел также, чтобы в моей проге была доступна опция взятия картинки с веб-камеры. Для этого я использовал библиотеку OpenCV, которая предоставляет необходимую функциональность. Кстати сказать, библиотека эта написана на C/C++, так что это даже оказалось очень кстати. НО, а как же распознавание? Тут не все так быстро. Если вы помните, нейронная сеть свой процесс «отгадывания» символов строит на том, чему она до этого обучилась. А вся штука в том, что обучается она на, так называемом, обучающем множестве. Так вот это множество как раз и необходимо создать. По сути, структура может варьироваться в зависимости от поставленных задач, но конкретно в моем случае я сделал так. Чтобы добиться относительной шрифтонезависимости при распознавании, я нарисовал по 30 русских прописных (печатных то бишь) букв двадцатью разными шрифтами. Почему 30 букв, а не 33? А потому что я брал только буквы, написанные цельным символом, т.е. я выкинул буквы Й,Ё и букву Ы. Картинки я сделал 32x32 пикселя. В программу я также добавил функционал для «монохромизации» любой поступающей картинки – делаю ее монохромной. Таким образом, после сегментации каждой из таких букв, я получал строку длиной 1024 символа, состоящую из нулей и единиц (само собой, что белый цвет пикселя означал 0, черный 1). Строк получилось 600. Все это я запихал в текстовый файл, который и превратился в обучающее множество.

Выглядело это так: