2020年4月6日
Django及keras中的LSTM 1.keras中的LSTM 最近在做光伏功率预测的项目时需要用到keras中的LSTM函数,本文对LSTM中的参数做个记录。 keras.layers.LSTM 类中有两个常用但不容易理解的参数,分别是 return_sequences 和 return_state。对于两个参数,官方定义如下: return_sequences: 布尔值。是返回输出序……
阅读全文
2020年4月2日
微博新冠肺炎的舆论分析 1.微博数据的抓取 在抓取微博数据时,有几种选择方式,一是按照热度排名抓取微博,这种选择方式会造成抓取的微博数量过于少,1月份的微博数量只有几页;另一种选择方式是按照原创抓取,可能会更能反应民众的真实情绪,这个后续再加以讨论。 目前常用的分词方法主要有三种: (1……
阅读全文
2020年4月1日
构建微博爬虫系统 本文的主要目的为记录微博爬虫的学习过程,最终的目的为实现爬取微博上的信息,可以完成定向信息的检索,将一定时间内的微博爬取下来。 1.微博数据不同于qq空间和朋友圈,是唯一一个可以爬的社交媒体平台。微博数据中可以爬取到数据维度有: 字段 说明 weibo_url 这条微博的URL,可以作为这……
阅读全文
2020年3月29日
python实现批量顺序执行同目录下的py文件 今天在看知乎时看到的一个技巧,在用jupyter notebook调参时,为了避免凌晨坐在电脑前面看着电脑运行,可以写个按顺序执行多个python文件的脚本。 假如我要执行code目录下的python程序,假设该目录下有1.py,2.py……
阅读全文
2020年3月26日
情感分析 1.情感分析实验总体思路是对已有的外卖评价,利用三种来源的词向量(词向量的来源有Word2vec、Glove和BERT等),将文本映射到向量空间后,利用聚类(HCM,KNN,层次聚类法)聚类,其中聚类方式中可以选择的距离公式大致分为三种:欧式距离、余弦距离和MWD距离。利……
阅读全文
2020年3月20日
Python爬虫 爬取视频 现在很多视频网站采用流媒体技术进行播放视频,一种常见的方案是m3u8文件+ts文件 。 m3u8是苹果公司推出一种视频播放标准,是m3u的一种,不过编码方式是utf-8,是一种文件检索格式,将视频切割成一小段一小段的ts格式的视频文件,然后存在服务器中(现在为……
阅读全文
2020年3月19日
cs224n笔记 Lecture10 -(Textual) Question Answerin 问答系统(Question Answering)实际需求很多,比如我们常用的谷歌搜索就可看做是问答系统。通常我们可以将问答系统看做两部分:从海量的文件中,找到与问题相关的可能包含回答的文件,这一过程是传统的information retrieval;从文件或段……
阅读全文
2020年3月19日
python爬虫-爬取图片 上次爬取文本的网站是静态网站,今天尝试爬取动态网站上的图片。静态网站和动态网站的区别是什么呢?首先静态网站的特点如下: 静态网站是最初的建站方式,浏览者所看到的每个页面是建站者上传到服务器上的一个 html ( htm )文件,这种网站每增加、删除、修改一个页面,都必须重新……
阅读全文
2020年3月17日
python 爬虫-爬取文本 以前做项目时需要爬虫,总是现学现用,现在抽个时间把爬虫的知识点整理一下,以便以后查看。 网络爬虫(web spider)根据网页地址(URL)爬取网页内容,在用爬虫之前,一般需要到指定的URL处审查元素(鼠标右键),查看目标网页的HTML格式分布,HTML是浏览器搭建……
阅读全文
2020年3月15日
lecture8笔记-Machine Translation,Sequence-to-sequence and attention 1.machine tranlation:从一个语言翻译到另一个语言,起源于冷战时期,最初是将俄语翻译成英语。最初是基于规则的,按照词典的对照转换;后来逐渐发展出按统计规则的SMT,但SMT太复杂了,最终神经机器翻译NMT横空出世,机器翻译迎来了新的发展。……
阅读全文