Как
уже было сказано выше, первая модель искусственного нейрона была предложена Маккалоком и Питтсом. С тех пор
она претерпела не очень большие изменения – изменились лишь активационные функции.
|
|||
Рисунок 2.3. Искусственный нейрон. |
Активационной функцией нейрона называется нелинейная
функция, которая берется от взвешенной суммы входных значений.
Ранние модели нейронов, в том числе и первый перцептрон, имели большей частью простую пороговую функцию
(функцию Хевисайда):
(2.4)
Но как было отмечено выше, у нее существуют определенные
недостатки, главным из которых является невозможность проведения классификации
на линейно неразделимом множестве входных векторов.
В настоящее время преимущественно используются, так
называемые сигмоидные (sigmoid) функции. Они получили свое название из-за формы
кривой, которая напоминает форму английской буквы s. Наиболее широко используемой функцией является логистическая (logistic)
активационная функция:
(2.5)
Одним
из преимуществ этой функции является простота нахождения производной, которая
используется практически во всех современных алгоритмах обучения МНСПР,
наиболее распространенной на сегодняшний день архитектуры.
Иногда
используются другие активационные функции, такие как гиперболический тангенс:
(2.6)
В большинстве случаев, однако, точная форма функции не
оказывает значительного влияния на качество функционирования сети, хотя
значительно влияет на скорость ее обучения. В статье [8] приводятся факты,
показывающие, что относительно малое значение производной логистической
функции заметно замедляет обучение при использовании базового варианта алгоритма обратного
распространения ошибок. Предлагаются две альтернативные активационные функции
(приведены вместе с производными):
,
(2.7)
,
(2.8)
Хотя в [9]
доказывается, что лучшей активационной функцией является гиперболический
тангенс. В статье предлагается четыре
критерия, которым должна отвечать “идеальная” активационная функция и
показывается, что этим критериям отвечает только гиперболический тангенс.