nlp

A collection of 8 posts

Nov 15, 2019

基于 Rasa 开发对话机器人 - 2

基于 Rasa 开发对话机器人 - 2

From 《Building Chatbots with Python》, C4,Building Chatbots the Hard Way... 从头开始训练、创建一个对话机器人 首先有三个名词解释: 意图 就是判断用户说的一段话主要是想订餐?查询天气?找工作还是要租房子... 等等 实体 一般是指NER(命名实体识别),就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体

Nov 15, 2019

基于 Rasa 开发对话机器人 - 1

基于 Rasa 开发对话机器人 - 1

From 《Building Chatbots with Python》, C4,Building Chatbots the Hard Way... Rasa 是什么 先来看一张结构图更容易说明问题,可以看出来,Rasa 整体分为三部分,NLU 负责解析用户意图、提取实体;Core 其实是 DM,也就是对话管理,负责维护对话的 session 等;Action 部分就是对用户的具体吩咐做出动作,并拿到结果,比如用户问天气、定个餐啥的,需要有对应的

Nov 14, 2019

Fast.ai - 1

Fast.ai - 1

cs224n 2019 里面已经把 tensorflow 换成了 PyTorch,所以找一个快速入门的 tutorial,然后就找到了 fast.ai,看起来类似 keras 之于 tensorflow 的关系,一下是一些流水账: 首先在 jetson nano 上配置好 fastai,因为除了 colab/aistudio 没有别的 GPU 环境... wget https://codeload.github.com/

Nov 1, 2019

Exploring Word Vectors

Exploring Word Vectors

CS224n 2019,assignment #1 总结: 主要讲了语言的传统和现代表征方式(以 2013 年的 word2vec 论文为界),one-hot 表示方法是说给所有单词统一编号,类似计算机里面的 gb2312 这种,每个字一个号;这种表征方式(represention) 好处是编码容易,坏处有两个: 形成的矩阵是稠密矩阵,特征不明显,这个很好理解,比如一个矩阵 10 个元素,除了第 9 个之外都是 0 ,那么特征很明显容易记,但如果十个元素分别有十个不同的数字,

Oct 29, 2019

斯坦福 cs224n 到本地

斯坦福 cs224n 到本地

众所周知的原因国内无法顺畅的 cs224n,以下是个曲线高清搬运回国的方案,需要你有一台国外的 vps: pip install you-get查看下相关网页包含的视频信息: you-get -i https://www.youtube.com/watch?v=fyqm8fRDgl0 有高清就高清: 可以看到 you-get 自动把 srt 字幕也下载下来了,如果更喜欢 MP4 格式的话修改相应的 --itag 参数就好。 之后在 vps 上开一个 nginx,群晖啥的

Oct 28, 2019

职言情感分析

职言情感分析

思路是这样,首先从脉脉职言里面抓上周数据;然后用 Senta-BiLSTM 模型分类;再随便找个 plot 工具出报告。说干就干。 抓数据,两步,上图上代码(说明:避嫌,图是盗的,代码是抄的...)。session 时效很短,报错的话更新下 「# 改」 # coding=utf-8 import requests def geturl(page): url = 'https://maimai.cn/sdk/web/

Oct 24, 2019

Paddle on Jetson Nano

Paddle on Jetson Nano

看到一哥们在 NVIDIA 论坛上放出了自己编译的 paddlepaddle for jetson nano : https://devtalk.nvidia.com/default/topic/1065203/paddlepaddle-for-jetson-nano-version-1-5-2-now-available/ 试了一下真滴 work了,除了我本地的 cudnn 版本有些久... github 在这里: https://github.com/yxnal/PaddlePaddle_Jetson 附图一张: