#1 - 2024-2-2 09:00
neneko (_____的里界名义)
我提取了脚本,清理,然后把文本切分成了可用于训练的对话形式。
整理好的训练数据(犯罪证据)放到 Hugging Face 上了。
》》》这里《《《(Hugging Face 位于城墙之外)
当然,我去掉了所有西瓜肚的内容(抱歉,唯独这个,我…
约定
- 一星期后会发布用数据中对话为主的内容做微调训练的一个 7b 左右的模型,以能在手机上运行为目标,希望做一个让大家可以简单愉快玩耍的对话模型。
- 未来会发布用全量数据集做微调训练的一个 30~50b 的写作模型。模型能在对话之余,比较好地驾驭旁白描写刻画叙述,就是半自动写脚本(把 porori 囚禁在显卡里)。
- 只要我心中寂寞的深度没变,数据集和模型都会持续更新。
碎碎念
首先,感谢数据源背后的汉化组们,他们才是真正的英雄。
离“大黄油”又近了一步
隔壁家叔叔圣诞节了还在给盖噜给脚本做标注,你可千万不能变成那样.jpg
怎么说呢,做标注的感觉就是,用 vscode 推 galgame,或许有点能体会到汉化组的感觉 XD
有时候标注到一些非常夜羊味的文字,心里总是担心着,这样细腻的笔触也是能被模拟的吗?心意有好好传达给大型语言模型吗?
最后,希望有好心人帮忙转发贴吧和Q群(我都没有账号)、帮忙转存数据(我没有魔搭账号),注明来源即可。
最后的最后,希望在不久的将来见到有人用这个数据集训练出更好的模型。
整理好的训练数据(犯罪证据)放到 Hugging Face 上了。
》》》这里《《《(Hugging Face 位于城墙之外)
当然,我去掉了所有西瓜肚的内容(抱歉,唯独这个,我…
约定
- 一星期后会发布用数据中对话为主的内容做微调训练的一个 7b 左右的模型,以能在手机上运行为目标,希望做一个让大家可以简单愉快玩耍的对话模型。
- 未来会发布用全量数据集做微调训练的一个 30~50b 的写作模型。模型能在对话之余,比较好地驾驭旁白描写刻画叙述,就是半自动写脚本(把 porori 囚禁在显卡里)。
- 只要我心中寂寞的深度没变,数据集和模型都会持续更新。
碎碎念
首先,感谢数据源背后的汉化组们,他们才是真正的英雄。
离“大黄油”又近了一步
隔壁家叔叔圣诞节了还在给盖噜给脚本做标注,你可千万不能变成那样.jpg
怎么说呢,做标注的感觉就是,用 vscode 推 galgame,或许有点能体会到汉化组的感觉 XD
有时候标注到一些非常夜羊味的文字,心里总是担心着,这样细腻的笔触也是能被模拟的吗?心意有好好传达给大型语言模型吗?
最后,希望有好心人帮忙转发贴吧和Q群(我都没有账号)、帮忙转存数据(我没有魔搭账号),注明来源即可。
最后的最后,希望在不久的将来见到有人用这个数据集训练出更好的模型。
在网页界面上的 Files and versions 找到 7z 文件直接下载即可
夜羊厨的喃喃自语)就算撇去文风,夜羊社也很棒,如果文风又对上电波,那就是赚到了