一晃17年就要过去了,懒癌已经无可救药了,赶紧发篇博文证明博主还活着。。。 本文的话题老生常谈,文本分类应该是很多NLPer非常常遇到和熟悉的任务之一了,下面总结一下博主在处理这类任务的过程中特征工程方面的经验,希望对各位NLP入门者或者在做此类任务的新手有所帮助。对于其他的文本处理任务,也会有一定的参考意义。 概述文本分类,顾名思义,就是根据文本内容本身将文本归为不同的类别,通常是有监督学习的任 ...
Read more »

导读目前采用编码器-解码器 (Encode-Decode) 结构的模型非常热门,是因为它在许多领域较其他的传统模型方法都取得了更好的结果。这种结构的模型通常将输入序列编码成一个固定长度的向量表示,对于长度较短的输入序列而言,该模型能够学习出对应合理的向量表示。然而,这种模型存在的问题在于:当输入序列非常长时,模型难以学到合理的向量表示。 在这篇博文中,我们将探索加入LSTM/RNN模型中的atte ...
Read more »

上篇博文:聊天机器人中的深度学习技术之一:导读主要从宏观上对目前聊天机器人所用到的主要技术进行了介绍。这篇博文会介绍并实现一个基于检索的模型,使用了双层Decoder的LSTM模型,通过这个模型可以实现聊天机器人。 本文涉及到的数据和代码见Github仓库地址。 基于检索模型的聊天机器人本文我们将介绍和实现一个基于检索模型的聊天机器人。检索模型所使用的回复数据通常是预先存储且知道(或定义)的数据 ...
Read more »

循环神经网络(RNN)

人们的每次思考并不都是从零开始的。比如说你在阅读这篇文章时,你基于对前面的文字的理解来理解你目前阅读到的文字,而不是每读到一个文字时,都抛弃掉前面的思考,从头开始。你的记忆是有持久性的。

传统的神经网络并不能如此,这似乎是一个主要的缺点。例如,假设你在看一场电影,你想对电影里的每一个场景进行分类。传统的神经网络不能够基于前面的已分类场景来推断接下来的场景分类。

循环神经网络(Recurrent Neural Networks)解决了这个问题。这种神经网络带有环,可以将信息持久化。

Recurrent Neural Networks have loops. -c100

Read more »

下面介绍如何在 Windows / Mac / Linux(Ubuntu) / iOS / Android 系统下对Shadowsocks的客户端(下面简称SS)的安装和配置,以便于使用相应的VPN服务。在此之前假设你已经知道了SS服务器的端口和密码,如果不知道的话,可以向VPN的提供者(管理员)索要。这里假设你端口号和密码已经获取得到,请结合自己所使用的系统环境找到对应的安装配置方法,在需要输入 ...
Read more »