使用BERTopic提取文本主题 使用BERTopic提取文本主题 加载数据集 挂载Google Drive用于读取数据集,这里会要求登陆Google账号授权,每次都需要重新授权,建议一开始在colab中选好gpu分配资源。 12from google.colab import drivedrive.mount('/content/drive') 数据集来自外卖平台中文评论,数据集地址:https://raw. 2023-03-28 学习 #Bert #NLP #BERTopic #文本主题
使用Bert进行NER命名实体识别feat.fastNLP(下:使用flask部署模型) 前言 下篇主要介绍使用flask搭建简单的网页和响应,并实现调用模型推理,完成NER任务可视化。 增加bilstm+crf的模型确实在预测上更为准确,例子中的“崔永元真面”中可以准确分辨出"崔永元"才是人名,而mlp模型会将“崔永元真”作为一个人名🤣 项目工程的Github仓库地址为:https://github.com/Ash-one/ChineseBert-finetuned-NER 2023-03-25 学习 #python #Bert #NLP #NER #flask
使用Bert进行中文NER命名实体识别feat.fastNLP(上:模型篇) 前言 项目工程地址:https://github.com/Ash-one/ChineseBert-finetuned-NER chatGPT的大火让很多NLP工作者的研究都陷入僵局,NER这种传统任务对于这种LLM已经可以说是小菜一碟。 NewBing进行ner 虽然没能力搞个GPT出来,搞个简单的Bert微调还是可以做到的。 本文对于NER命名实体识别任务,使用复旦大学的fastNLP 2023-03-18 学习 #Bert #NLP #NER
富有表现力的语音合成系统(Expressive TTS) 富有表现力的语音合成系统 Tacotron-GST 在Tacotron引入了全局风格标签(Global Style Token,GST)。模型包括reference encoder,style attention,style embedding Tacotron-GST模型结构 StyleToken-TTS 在数据集上增加风格标签,代表话语风格的短语或词,例如情感、意图和语调。由于风格是用自 2023-02-10 学习 #语音合成 #论文
VALL-E VALL-E 模型 使用60k小时英语语音训练,使得模型出现上下文学习能力。只需要3秒特定录音,就可以学习到说话人的说话方式,甚至是背景音。 demo演示:https://valle-demo.github.io/ 模型总览 音频量化 Speech Quantization 对于常见的一秒音频,16位,48kHz,意味着需要每个step有\(2^{16}=65536\)个值,整个序列长度接近 2023-01-13 学习 #语音合成
《声与情:播音用声的实证研究》笔记 链接:https://www.zhizhen.com/detail_38502727e7500f26ca5684ae8f3c3b6429bcb36a14c533e11921b0a3ea25510134114c969f2eae5c9837344477b6470412f90171de0b6360e6b1c5d917c82372d97823f6a9338067eed855d3fbe548a5?& 2022-11-03
使用中转服务器代理访问内网bySSinDocker 目的 通过常用的代理软件(小火箭)连接到处于内网环境的代理服务器,从而实现在任意地方访问内网的需求,进而可以使用内网跳板机连接其他内网机器,突破SSL会话限制。 在外网可以使用代理服务器访问内网服务 搭建步骤 概览 为方便快捷,使用docker在内网中部署shadowsocks服务器,放出端口 为从外部访问内网,使用docker部署frpc监听ss服务器端口,连接带有公网IP的frps 终 2022-10-27 技术 #网络 #代理
虚拟局域网技术VLAN解析 虚拟局域网技术 ## 前言 工作在数据链路层的以太网交换机由于以太网规模的扩大导致广播域扩大,造成的广播风暴可能会导致网络瘫痪。 广播信息的来源主要是涉及到地址解析、名称解析的行为: 网络层 TCP/IP协议栈中的协议:地址解析协议ARP,路由信息协议RIP,DHCP 会话层协议:网上基本输入输出系统NETBIOS 应用层协议:链路本地多播名称解析LLMNR 网络中的广播信息无处不在,想要克制 2022-10-17
使用wireguard搭建属于自己的虚拟内网 使用wireguard搭建属于自己的虚拟内网 本文将使用wireguard的docker镜像,借助中转服务器,快速方便的部署出一个属于自己的虚拟内网,网内地址完全自定义,支持全平台。 wireguard结果展示 wireguard分为服务端和客户端,其中服务端需要部署在有公网IP的服务器上,需要加入内网的设备需要单独安装客户端并启动。 在部署完成后是这样的效果: 部署完成测速 右侧测速结 2022-10-16 技术 #网络 #内网 #wireguard
Ubuntu上基于docker搭建Hadoop集群 Docker操作 先学习一下基础的docker命令,后面常用,这里放出来备查 查看容器container docker ps 的命令包括: 1)-a 列出所有容器 2)-l 列出最新创建容器 3)-n=2 列出最近创建的2个容器 4)-q 仅列出容器ID 5)-s 显示容器大小 1sudo docker ps -a 删除容器 1sudo docker rm 1051267f9afb 查看镜像ima 2022-10-07 技术 #docker #ubuntu #hadoop
esxi安装黑群晖记录 esxi系统安装 用U盘刷好系统,具体省略 准备 镜像 黑群晖镜像链接: https://pan.baidu.com/s/1ZOLCEvfAgF0tTZRkMt3MjA?pwd=ya4g 其中不同镜像对应的就是不同的群晖硬件,我一开始使用的ds918+一直卡在最后一步安装失败,所以后面选用的ds2617xs 镜像分为引导文件(.img)和系统安装包(.pat),要下载好对应的版本 硬件准备 最好准 2022-10-02 技术 #虚拟机 #群晖 #esxi
生成模型之VAE 生成模型之Variational Auto-Encoder 本篇内容主要参考台大李宏毅教授的视频,作为笔记使用 【機器學習2021】自編碼器 (Auto-encoder) (上) - 基本概念 ML Lecture 18: Unsupervised Learning - Deep Generative Model (Part II) Auto-Encoder自动编码器 💡 可以认为是自监督 2022-08-02 学习 #DL #VAE #生成模型