rdfs:comment
| - 勾配消失問題(こうばいしょうしつもんだい、英: vanishing gradient problem)は、機械学習において、勾配ベースの学習手法と誤差逆伝播法を利用してニューラルネットワークを学習する際に、誤差逆伝播に必要な勾配が非常に小さくなり、学習が制御できなくなる問題である。この問題を解決するために、リカレントニューラルネットワークではLSTMと呼ばれる構造が導入されたり、深層のネットワークではと呼ばれる構造が導入される。 また、活性化関数の勾配が非常に大きな値をとり、発散してしまうこともある。このような問題は、勾配爆発問題(こうばいばくはつもんだい、英: exploding gradient problem)と呼ばれる。 (ja)
- 기울기 소멸 문제(vanishing gradient problem)는 신경망의 활성함수의 도함수 값이 계속 곱해지다 보면 가중치에 따른 결과값의 기울기가 0이 되어 버려서, 경사 하강법을 이용할 수 없게 되는 문제이다. 문제는 경우에 따라 기울기가 너무 작아져서 가중치가 값을 바꾸는 것을 효과적으로 막게 된다는 것이다. 최악의 경우 아예 신경망의 훈련이 멈춰버릴 수 있다. ReLU처럼 활성함수를 개선하는 방법, 층을 건너뛴 연결을 하는 ResNet, 배치 정규화(batch normalization) 등의 해법이 나왔다. 오차 역전파를 통해 연구자들은 지도 심층 인공신경망을 처음부터 훈련할 수 있게 되었으나, 초기에는 거의 성공을 거두지 못했다. (Sepp Hochreiter)는 이런 실패의 이유를 1991년 공식적으로 "기울기 소멸 문제"로 확인하였다. 이는 다층 순방향 신경망뿐 아니라, 순환 신경망에도 영향을 미쳤다. 한편 기울기 소멸 문제와 반대로 기울기값이 계속 증폭될 경우 기울기 폭발 문제(exploding gradient problem)가 발생한다. (ko)
- 梯度消失问题(Vanishing gradient problem)是一种机器学习中的难题,出現在以梯度下降法和反向传播训练人工神經網路的時候。在每次訓練的迭代中,神经网路权重的更新值与误差函数的偏導數成比例,然而在某些情况下,梯度值会几乎消失,使得权重无法得到有效更新,甚至神經網路可能完全无法继续训练。舉個例子來說明問題起因,一個传统的激勵函数如双曲正切函数,其梯度值在 (-1, 1)范围内,反向传播以链式法则来计算梯度。 這樣做的效果,相当于在n層網路中,将n个這些小数字相乘來計算“前端”層的梯度,这就使梯度(误差信号)随着n呈指數遞減,导致前端層的訓練非常緩慢。 反向傳播使研究人員從頭開始訓練監督式深度人工神經網路,最初收效甚微。 1991年賽普·霍克賴特(Hochreiter)的畢業論文正式確認了“梯度消失問題”失敗的原因。梯度消失問題不僅影響多層前饋網絡,還影響。循環網路是通過將前饋網路深度展開來訓練,在網路處理的輸入序列的每個時間步驟中,都會產生一個新的層。 當所使用的激勵函數之導數可以取較大值時,則可能會遇到相關的梯度爆炸問題(exploding gradient problem)。 (zh)
- En aprendizaje de máquinas, el problema de desvanecimiento de gradiente es una dificultad encontrada para entrenar redes neuronales artificiales mediante métodos de aprendizaje basados en descenso estocástico de gradientes y de retropropagación. En tales métodos, cada uno de los pesos de la red neuronal recibe una actualización proporcional a la derivada parcial de la función de error con respecto al peso actual en cada iteración de entrenamiento. (es)
- In machine learning, the vanishing gradient problem is encountered when training artificial neural networks with gradient-based learning methods and backpropagation. In such methods, during each iteration of training each of the neural network's weights receives an update proportional to the partial derivative of the error function with respect to the current weight. The problem is that in some cases, the gradient will be vanishingly small, effectively preventing the weight from changing its value. In the worst case, this may completely stop the neural network from further training. As one example of the problem cause, traditional activation functions such as the hyperbolic tangent function have gradients in the range (0,1], and backpropagation computes gradients by the chain rule. This ha (en)
- Il problema della scomparsa del gradiente (in lingua inglese vanishing gradient problem) è un fenomeno che crea difficoltà nell'addestramento delle reti neurali profonde tramite retropropagazione dell'errore mediante discesa stocastica del gradiente. In tale metodo, ogni parametro del modello riceve a ogni iterazione un aggiornamento proporzionale alla derivata parziale della funzione di costo rispetto al parametro stesso. Una delle principali cause è la presenza di funzioni di attivazione non lineari classiche, come la tangente iperbolica o la funzione logistica, che hanno gradiente a valori nell'intervallo . Poiché nell'algoritmo di retropropagazione i gradienti ai vari livelli vengono moltiplicati tramite la regola della catena, il prodotto di numeri in decresce esponenzialmente rispe (it)
- В машинному навчанні пробле́ма зника́ння градіє́нту (англ. vanishing gradient problem) виникає при тренуванні штучних нейронних мереж методами навчання на основі градієнту та зворотного поширення. В таких методах кожен з вагових коефіцієнтів нейронної мережі отримує уточнення пропорційно до частинної похідної функції похибки по відношенню до поточної ваги на кожній ітерації тренування. Проблема полягає в тім, що в деяких випадках градієнт буде зникомо малим, тим самим перешкоджаючи вазі змінювати своє значення. В найгіршому випадку це може повністю зупинити нейронну мережу від подальшого натреновування. Як один із прикладів причини цієї проблеми, традиційні передавальні функції, такі як гіперболічний тангенс, мають градієнти в проміжку (0, 1), а зворотне поширення обчислює градієнти за лан (uk)
|