AI 成就更好的自己

提高个体的点滴效率,成为更好的自己

Jul 19, 2020

初试 MLflow 机器学习实验管理平台搭建

初试 MLflow 机器学习实验管理平台搭建

MLflow 是 Databricks(spark) 推出的面对端到端机器学习的生命周期管理工具,它有如下四方面的功能: 跟踪、记录实验过程,交叉比较实验参数和对应的结果(MLflow Tracking).把代码打包成可复用、可复现的格式,可用于成员分享和针对线上部署(MLflow Project).管理、部署来自多个不同机器学习框架的模型到大部分模型部署和推理平台(MLflow Models).针对模型的全生命周期管理的需求,提供集中式协同管理,包括模型版本管理、模型状态转换、数据标注(MLflow Model Registry).MLflow 独立于第三方机器学习库,可以跟任何机器学习库、任何语言结合使用,因为

Jul 6, 2020

Pyenv + poetry 优雅的管理你的 pypi 库

Pyenv + poetry 优雅的管理你的 pypi 库

如果你在维护一个 pypi.org 上的 lib,那么相信你已经跟 setup.xx/ wheel 之类的打过几回招呼了,不知道你感觉怎样,反正我感觉不咋样,所以入坑了 poetry 来做这件事情,顺便把 conda 换成了 pyenv(只为尝鲜),然后更新了几个 vs code 的 extension: flake8/pytest/black (为了让开发过程更爽),pyright 换成了 pylance(听说更好)

Jun 10, 2020

自然语言处理的两件神兵之(1): nlp library

自然语言处理的两件神兵之(1): nlp library

nlp 和 tokenizers 简介nlp 和 tokenizers 是 Huggingface 出品的另外两个自然语言处理方面非常方便、有用的库缘起Huggingface 最初是抓住了 BERT 横空出世的机会,Pytorch 是 Facebook 推出的深度学习框架, 所以腹黑的推断一下在 Pytorch 下 Facebook 理论上推出官方对 BERT 的支持的时效性可能比较差, 而社区中对 Pytorch 版本的 BERT 又非常之需要,所以 Huggingface 出马,率先实现了

Jun 8, 2020

你是如何管理机器学习实验的?-机器学习实验管理平台大盘点

你是如何管理机器学习实验的?-机器学习实验管理平台大盘点

wandb.aicomet.mlneptune.aiallegro trainsmlflowguild.aisacredtest-tubetensorboard相信很多同学看到上面这个列表的第一印象是懵的。我们先看下机器学习实验管理平台 到底是做神马滴: 一句话概括就是:类似程序员写代码需要 git 来做代码管理,机器学习的研究者们也需要一款类似 github 的 saas 工具来实现对相应的实验进行跟踪、不同参数效果直观比较、提升模型可解释性、团队协作调参共享模型等等,以下来自 comet.ml 对自己的说明: allowing data scientists and teams to track, compare, explain,

Jun 5, 2020

Transformers library 的终极API: pipeline

Transformers library 的终极API: pipeline

pipeline 特别适合作为实例来展示 nlp 究竟可以做什么 Transformers 简介大名鼎鼎的 Hugging Face 出品的 Transformers 相信不需要再多介绍,从最初的一个 Pytorch 版的 BERT 实现发展到现在几乎覆盖 NLP 领域方方面面的民主社区,这个笑脸值得关注。                      Transformers 的 pipeline所谓的 pipeline 是指可以用来处理一个特定任务的类,是指针对现有的经典实验场景做好的代码,实际用到的时候只要指定参数,稍微调整下就可以直接上手用。Transformers 里面把一下场景做成了 pipeline:句子情感分析QA 场景,阅读理解,

Apr 26, 2020

TPU-v2 是 Tesla V100 16G 性能的 4.75倍?

TPU-v2 是 Tesla V100 16G 性能的 4.75倍?

用Transformers 自带的 MNLI 例子分别在 V100 16G 上和 tpu-8core 上面跑一个 epoch 结果如下: Tesla V100 16GTPU-v2 8-core76/16.0 = 4.75 这样看起来如果不上多机多卡的话 TPU 现在是做实验最好的选择了。

Apr 23, 2020

Colab、PyTorch 和 TPU

Colab、PyTorch 和 TPU

机器学习最重要的是获取更多的数据和算力,怎样获取更多数据说多了都是麻烦,目前精力应该更多的集中在获取算力上,目前国内百度的 aistudio 算比较慷慨,有 32g 的 V100 提供,但各种时间限制,只能跑跑 demo,真有项目需求的话只能选择多和他们自己的分布式环境或者他们的 easydl,说实话易用性还有很大提高空间,两种方式都一样。 墙外的无论是 kaggle 还是 colab / GCP 现在都是一家的,Google 的,他家的 TPU 虽然不卖硬件有断供之嫌,但目前提供出来的公用资源确实不错,值得一试,支持最好的当然是 GCP

Apr 22, 2020

更亲开发者的深度学习包: PyTorch Lightning -- 简介

更亲开发者的深度学习包: PyTorch Lightning -- 简介

本质上 Lightning  就是 PyTorch代码,更像是一种编程风格指引。老实说这东西着实不错!基本上是实现了开发者熟悉的状态机方式来写深度学习的代码。 有开发背景的同学肯定对有限状态机(FSM)的概念不陌生,所谓状态机模型,就是所有状态都提前预知并定义好成一个类似 callback, 然后程序员所需要做的就是在定义好的状态或者说动作里面填写上具体的功能代码即可,所以一般也叫有限状态机,上一个例子就容易理解我在说什么了: // 顾名思义,这个 viewDidLoad 函数就是在该 viewcontroller 的 view 完成了加载之后会被执行。 - (void)viewDidLoad { [super viewDidLoad]; // Do any additional setup

Mar 15, 2020

引入智能机器人提高企业员工入职率

引入智能机器人提高企业员工入职率

员工加入新公司的头几天的时间一般都会被诸如宣讲会、团队互动,熟悉并设置各种IT系统,查阅各种工作相关的文档资料,熟悉公司政策等事务占满。 在此期间为员工提供令人愉悦和流畅的体验对于该员工能否顺利的融入非常重要,也很困难。 而将人工智能驱动的聊天机器人整合到招聘和员工入职中,不仅可以增强新员工的入职体验,而且可以解放人力资源人员,使其专注于更紧迫的问题。 在该过程中集成基于AI的 Chatbot 可以简化和加快员工入职等流程。 接下来我们说下该怎么做 熟悉人事相关的流程员工加入后,Chatbot 会首先欢迎他们加入公司,然后宣讲有关公司政策,员工角色和职责,所在团队介绍,当前项目进度以及所有必要信息。 一旦聊天机器人使用结构化的数据了解并学会了该流程中所涉及到的信息和知识,则接下来人力资源和入职员工都无需相互依赖。 入职员工可以通过轻松并及时的以对话的方式从 Chatbot 中获取自己想要了解的信息。 文书方面的工作使用Chatbots可以让员工轻松的获取需要知晓的各种表格类信息,查询有关公司政策和其他重要方面的信息等等。 处理 FAQ大多数新员工都会问相同的问题,比如上下班时间,午餐时间,

Mar 6, 2020

从爱奇艺下载视频另存为 mp4

从爱奇艺下载视频另存为 mp4

家里小朋友需要做一个 PPT 作业,用到一个介绍二十四节气的短片,自己折腾半天无法导入到 PPT, 求助本 IT-support。 打开客户端直接下载另存为,竟然是私有格式的,无法正常导入 PPT! 简单看了下爱奇艺播放也得结构,console 中执行如下指令可以把真正的 URL 拿到: document.getElementsByTagName('video')[0].src 如果想写个脚本完成自动下载的话直接把 cookie 放进去也就可以了: