Cs224n笔记 Lecture7

2020年3月14日

lecture7笔记-vanishing gradients and fancy Rnns 1.梯度消失：由于链式法则（chain rule),在对深层网络反向传播梯度时，可能会出现梯度越乘越小的情况，此即为梯度消失。RNN中的梯度消失和一般的深层神经网络的梯度消失概念有所不同，原因在于RNN权重共享，总梯度为各个时间步的梯……

阅读全文

Cs224n笔记-lecture6

2020年3月11日

lecture6 Language Models and Recurrent Nerual Networks 1.language model:就是根据已知序列推测下一个单词（或序列）的问题。输入法、浏览器搜索都有语言模型（根据你输入的单词推测下一个单词或短语）。 2.n-grams:最经典的language model是n-gram,它是基于多个单词在一起使用的统计特性，推测下一个单词时运用了条……

阅读全文

Cs224n笔记 Lecture5

2020年3月10日

lecture5-Dependency Parsing(笔记) 1.为了正确解释理解语言，首先需要理解句子的结构。例如下面的例子： San Jose cops kill man with knife 这句话可能会有歧义，一种理解是：警察用刀杀了那个男子。这种翻译的理解是： cops 是 kill 的 subject (subject 指主语) man 是 kill的 object (object 指宾语) knife 是 kill 的 modifier (modifier 指修饰符) 另一种理解是：警察杀了那个有刀的男子……

阅读全文

Cs224n笔记 Lecture4

2020年3月4日

lecture4:Backpropagation and computation graphs(笔记) 1.问题：在使用预训练词向量时，比如进行情感分类，在"fine tune"时训练集的词向量会move around，而测试集的词向量未发生变化，由此在测试集上测试时可能会出现偏差。答：首先不能抛弃预训练的词向量，在面对规模较小的数据集时，……

阅读全文

理解Glove模型

2020年2月17日

Glove是词的向量化表示方法之一，常用的词的向量化表示方法有：word2vec、glove、ELMo、BERT。首先先介绍一下除Glove以外的其他三种方法。 word2vec word2vec是2013年提出的方法，它的核心思想是通过词的上下文得到词的向量化表示，有两种方法：CBOW（通过附近……

阅读全文