独处,萌新写手,热衷钻研AI,书籍是我的精神食粮,自学西班牙语,精通滑板各种姿势摔倒测试,绘画kakashi,热爱动漫,英美剧(私人剧单,书单),最无法忍受的事:在毫不知情的情况下看一部被删减的剧,最最无法忍受的事:看一本不忠于原著,因各种原因而篡改扭曲作者表达意愿,译者二次开发创作的书(为从根源上解决,苦练英文阅读水平,目前英文原著已不看译本,日文图书优先选择美版或者英版)。愿望:遇见那只命中注定要和我在一起的小猫咪。
公事:[email protected] 私事:[email protected]

cilyy.com-Tokenizer
中文Tokenizer

使用BPE配对和GPT4的分词器,在中文数据集上进行微调训练,生成了5K大小的词汇表,英文平均压缩率150%,中文平均压缩率300%。

link
cilyy.com-anime_dataset
动漫台词数据集

使用Scrapy在公共互联网爬取动漫字幕文件,提取整理成一份包含两个特征的CSV文件(名字&字幕)。

link
cilyy.com-my_website
个人网站

由本人全栈开发。

link
cilyy.com-transformer
从零开始搭建GPT-2(124M)

Pytorch框架,GPT-2的初始化,基本训练优化和进阶优化。

link
cilyy.com-coming_soon
提示词生成器

正在开发中......

link