🇨🇳
阿臻的学习笔记
  • 🤖AI
    • 📑README
    • 🕒Scheduling
      • 一种JSSP的DRL环境
    • 📜Paper
      • 神经协同过滤
      • 非侵入信号深度学习
      • 肾透析移植机器学习
      • 心理学随机森林
      • P300数据学习
    • ⚒️Pytorch
      • 1.1数据基础
      • 1.2自动梯度
      • 1.3神经网络
      • 1.4模型实现
      • 2数据操作
    • 🛠️Ray+Gym
    • 📃Graph Neural
      • 图神经网络基础
      • Contrastive Multi-View Representation Learning on Graphs
    • 📽️Deep Learning
      • 《第一章》
      • 《第二章》
      • 《第三章》
      • 《第四章》
      • 台湾陈蕴侬视频2020
    • 🔨MXNet
      • 《第一章》《第二章》
      • 《第三章》
      • 《第四章》
      • 《第五章》
      • 《第六章》
      • 《第七章》
      • 《第八章》
      • 《第九章》
      • 《第十章》
  • 👨‍🏭Study
    • 📔Algorithm
      • Leetcode
        • 第一天(乱刷)
        • 第二天(栈)
        • 第三天(栈)
        • 第四天(堆)(贪心)
        • 第五天(贪心)
        • 第六天(贪心)
        • 第七天(排序)
        • 第八天(排序)
        • 第九天(排序)
        • 第十天(位运算)
        • 第十一天(位运算)
        • 第十二天(位运算)
        • 第十三天(位运算)
        • 第十四天(树)
        • 第十五天(树)
        • 第十六天(树)
        • 第十七天(树)
        • 第十八天(树)
        • 第十九天(树)
        • 第二十天(树)
        • 第二十一天(树)
        • 第二十二天(并查集)
        • 第二十三天(并查集)
        • 第二十四天(DFS)(图)
        • 第二十五天(图)(设计)
        • 第二十六天(拓扑)
        • 第二十七天(字典树)
        • 第二十八天(字典树)
        • 第二十九天(树状数组)(二叉搜索树)
        • 第三十天(递归)
        • 第三十一天(脑筋急转弯)
        • 第三十二天(脑筋急转弯)
        • 第三十三天(记忆化)
        • 第三十四天(队列)
        • 第三十五天(队列)
        • 第三十六天(极小化极大)
        • 第三十七天(几何)
        • 第三十八天(蓄水池抽样)
        • 第三十九天(数组)
        • 第四十天(数组)
        • 第四十一天(数组)
        • 第四十二天(数组)
        • 第四十三天(数组)
        • 第四十四天(数组)
        • 第四十五天(数组)
        • 第四十六天(数组)
      • Sort
        • 最小堆
        • 归并排序(merge_sort)
    • 📓Knowledge
      • python补码
    • 🔧Other
      • pythonic语法
      • Ubuntu备忘
由 GitBook 提供支持
在本页

这有帮助吗?

导出为 PDF
  1. AI
  2. Deep Learning

台湾陈蕴侬视频2020

二、模型结构、损失函数、优化、反向传播

偏差(bias)的理解:相当于给一个初值,然后通过学习调整这个初值。

感知层(perception layer)的理解:每一层相当于一个切割,可以通过二层模拟出一个凸,越多层表达越多场景。

激活函数(activate function):选非线性的,线性跟权重没差。

损失函数(loss function):定义一个损失值,越小越接近正确的参数值。

梯度下降(Gradient Descent)的理解:越倾斜,下降越快,越平稳下降越慢;容易达到局部最小值,卡在局部。随机小批量梯度下降(SGD,选1个)比较快。小批量梯度下降(Mini-Batch GD,选k个).

训练速度:mini-batch>SGD>GD,因为现代电脑矩阵相乘的速度大于矩阵和向量相乘。

学习率:过大会学习过头,越过最小值。过小会学的很慢。

建议:1.数据随机;2.使用固定批量;3.调整学习率。

反向传播(backward propagation):通过梯度和学习率更新权重。其实就是微积分链式法则在模型中的体现。反向传播计算出的梯度乘以前向计算的结果,就是下一个变数的偏微分了。

三、语言表达、RNN、批量

共现矩阵:表示一起出现过的单词的关系。

奇异值分解(singular value decomposition,SVD):降低维度。

SVD问题:计算复杂度过高,难以加新词。

解决方法:降低维度,通过embedding的方法嵌入一个空间中的位置。常用word2vec,Glove方法。

知识型表示(knowledge-based representation):通过符号等来表示知识(知识图谱)

语料库表示(corpus-based representation):基于近邻的高维(共现矩阵),低维(降维或embedding);原子特征(atomic symbol,one-hot向量)

循环神经网络(recurrent neural net,RNN):将前面的影响传递给后面的网络。

梯度消失,梯度爆炸(Vanishing/Exploding Gradient):指数太多次,导致大的越大,小的越小。解决方法:裁剪(clipping)

双向循环神经网络(Bidirectional RNN):当时间可以双向的时候,可以使用。(不能预测股市这种单向时间的)

编码器-解码器:编码器生成W或背景向量C,解码器利用编码器结果来生成输出。

批量归一化计算:先归一化,后缩放和平移。

从经验法则来讲,L2正则化一般比L1正则化有效。

四、注意力机制

编码器-解码器实现注意力机制:编码器收集信息,收集完一整句(注意力在这)之后,保存在编码器,用解码器生成输出,直到遇到。

Q,K,V:Q是指query,K是指编码器中的key,V是指最后一层的Value。

五、word2vec

最大化和最小化:多个概率相乘求其最大值,相当于对其求log后加个负号求最小值。也就是说,凡是求最大值的,都可以通过符号变成求最小值。

上一页《第四章》下一页MXNet

最后更新于3年前

这有帮助吗?

🤖
📽️