2020年3月14日
lecture7笔记-vanishing gradients and fancy Rnns 1.梯度消失:由于链式法则(chain rule),在对深层网络反向传播梯度时,可能会出现梯度越乘越小的情况,此即为梯度消失。RNN中的梯度消失和一般的深层神经网络的梯度消失概念有所不同,原因在于RNN权重共享,总梯度为各个时间步的梯……
阅读全文
2020年3月11日
lecture6 Language Models and Recurrent Nerual Networks 1.language model:就是根据已知序列推测下一个单词(或序列)的问题。输入法、浏览器搜索都有语言模型(根据你输入的单词推测下一个单词或短语)。 2.n-grams:最经典的language model是n-gram,它是基于多个单词在一起使用的统计特性,推测下一个单词时运用了条……
阅读全文
2020年3月10日
lecture5-Dependency Parsing(笔记) 1.为了正确解释理解语言,首先需要理解句子的结构。例如下面的例子: San Jose cops kill man with knife 这句话可能会有歧义,一种理解是:警察用刀杀了那个男子。 这种翻译的理解是: cops 是 kill 的 subject (subject 指 主语) man 是 kill的 object (object 指 宾语) knife 是 kill 的 modifier (modifier 指 修饰符) 另一种理解是:警察杀了那个有刀的男子……
阅读全文
2020年3月4日
lecture4:Backpropagation and computation graphs(笔记) 1.问题:在使用预训练词向量时,比如进行情感分类,在"fine tune"时训练集的词向量会move around,而测试 集的词向量未发生变化,由此在测试集上测试时可能会出现偏差。 答:首先不能抛弃预训练的词向量,在面对规模较小的数据集时,……
阅读全文
2020年2月17日
Glove是词的向量化表示方法之一,常用的词的向量化表示方法有:word2vec、glove、ELMo、BERT。首先先介绍一下除Glove以外的其他三种方法。 word2vec word2vec是2013年提出的方法, 它的核心思想是通过词的上下文得到词的向量化表示,有两种方法:CBOW(通过附近……
阅读全文
2020年2月15日
一、深度学习中embedding层的作用是什么?在做NLP相关工作时经常会与embedding层打交道,在 查阅了有关资料后,将其作用和用法记录如下。 首先,使用embedding主要有两大原因: 1.使用One-hot 方法编码的向量会很高维也很稀疏。假设我们在做自然语言处理(NLP)……
阅读全文
2020年2月13日
在hugo博客每次要创建新的博客时,可以在命令行cd到myblog的根目录(或者直接在content/post文件夹下新建一个markdown文件),然后运行以下命令: hugo new post/要创建的文件名字.md 在写完文章后,要上传到静态网站上,首先要在站点跟目录(myblog)上执……
阅读全文