Статистика

Суббота, Ноябрь 15th, 2014

Избежать проблем, связанных с обучением НС, позволяет процедура обучения Больцмана. Ее главная идея заключается в использовании принципа отжига металла. Если металл нагреть до температуры, превышающей его точку плавления, то атомы будут находится в состоянии неупорядоченного движения. При охлаждении они стремятся к состоянию, которое соответствует минимуму энергии. Вероятность того, что система находится в состоянии с энергией e, определяет постоянная Больцмана, T — температура в Кельвинах. Главный вывод из этой формулы заключается в том, что высокоэнергетические состояния маловероятны, а низкоэнергетические состояния, наоборот, имеют вероятность почти равную единице. При приближении температуры к нулю вероятность высокоэнергетического состояния также близка к нулю. Эти принципы положены в основу метода стохастической релаксации обучения НС.

Заметим, что все перечисленные величины являются параметрами задачи (2.16), причем таким параметром является также активационная функция, поскольку она может быть классическим сигмоидом, смещенным сигмоидом, гиперболическим тангенсом, фрагментом колоколообразной функции и т.п. Если в результате выполнения итерационной процедуры для заданного s> 0 будет выполняться неравенство E(W,V,/,т)<s, то это будет означать, что обученная НС реализует зависимость (2.4) и задача (2.3) решена. Зависимость F будет идентифицирована неявно через совокупность значений указанных выше параметров.

Окончание алгоритма

Предложенный алгоритм практически исключает возникновение традиционных для НС с градиентными методами обучения проблем с попаданием в локальные минимумы функции энергии и «параличом» сети. Отличием предлагаемого метода от классического обучения Больцмана является использование принципа регуляризации (32), согласно которому все данные (кроме проверочной последовательности) определенным образом делятся на две последовательности: обучающую и контрольную. Способы разделения могут быть разными. Более эффективным является ранжирование начальных образов по величине дисперсии и выбор в обучающую последовательность образов с большей дисперсией, а в контрольную — с меньшей. Такая процедура осуществляется по следующему алгоритму:.

Добавить комментарий