#1 - 2024-2-2 09:00
neneko (_____的里界名义)
我提取了脚本,清理,然后把文本切分成了可用于训练的对话形式。

整理好的训练数据(犯罪证据)放到 Hugging Face 上了。

》》》这里《《《(Hugging Face 位于城墙之外)

当然,我去掉了所有西瓜肚的内容(抱歉,唯独这个,我…


约定

- 一星期后会发布用数据中对话为主的内容做微调训练的一个 7b 左右的模型,以能在手机上运行为目标,希望做一个让大家可以简单愉快玩耍的对话模型。
- 未来会发布用全量数据集做微调训练的一个 30~50b 的写作模型。模型能在对话之余,比较好地驾驭旁白描写刻画叙述,就是半自动写脚本(把 porori 囚禁在显卡里)
- 只要我心中寂寞的深度没变,数据集和模型都会持续更新。



碎碎念

首先,感谢数据源背后的汉化组们,他们才是真正的英雄。

离“大黄油”又近了一步

隔壁家叔叔圣诞节了还在给盖噜给脚本做标注,你可千万不能变成那样.jpg

怎么说呢,做标注的感觉就是,用 vscode 推 galgame,或许有点能体会到汉化组的感觉 XD

有时候标注到一些非常夜羊味的文字,心里总是担心着,这样细腻的笔触也是能被模拟的吗?心意有好好传达给大型语言模型吗?

最后,希望有好心人帮忙转发贴吧和Q群(我都没有账号)、帮忙转存数据(我没有魔搭账号),注明来源即可。
最后的最后,希望在不久的将来见到有人用这个数据集训练出更好的模型。
#2 - 2024-2-2 09:19
(似梦非梦,似醒非醒。十年须臾,千里一步。)
看不懂但是赞一个
#3 - 2024-2-2 09:22
单走一个 6
等一个后续
#4 - 2024-2-2 09:45
感谢开源数据集!想做类似的东西好久了,但三次元事务缠身一直没有机会开始
#4-1 - 2024-2-2 11:29
neneko
嘿嘿,我也是,想了很久,去年底下定决心开始做了。其实,忙的时候意外地会想开mo坑yu呢
#5 - 2024-2-2 09:53
(空邦哇)
这个世界就是一个巨大的黄油
#5-1 - 2024-2-2 11:31
neneko
每个人都不可避免地成为女主
#5-2 - 2024-2-2 18:27
Joh
neneko 说: 每个人都不可避免地成为女主
艹(实感)
#5-3 - 2024-2-2 21:37
禾芝
neneko 说: 每个人都不可避免地成为女主
啊啊,不要用客体化的目光凝视我呀!
#6 - 2024-2-2 10:37
(Dream a dream)
笑死了,加油
#7 - 2024-2-2 15:37
(創造は生命。)
哪个7B底模?
#7-1 - 2024-2-2 16:53
neneko
下周五揭晓,我会公开成品和训练细节的
#8 - 2024-2-2 16:08
(ⓘ因违反社区原则发布低俗色情信息,该用户已被永久禁言)
#9 - 2024-2-2 17:15
Cannot get the config names for the dataset.
Error code:   ConfigNamesError
Exception:    DataFilesNotFoundError
Message:      No (supported) data files found in nenekochan/yoruno-vn
Traceback:    Traceback (most recent call last):
                File "/src/services/worker/src/worker/job_runners/dataset/config_names.py", line 67, in compute_config_names_response
                  get_dataset_config_names(
                File "/src/services/worker/.venv/lib/python3.9/site-packages/datasets/inspect.py", line 347, in get_dataset_config_names
                  dataset_module = dataset_module_factory(
                File "/src/services/worker/.venv/lib/python3.9/site-packages/datasets/load.py", line 1840, in dataset_module_factory
                  raise e1 from None
                File "/src/services/worker/.venv/lib/python3.9/site-packages/datasets/load.py", line 1821, in dataset_module_factory
                  return HubDatasetModuleFactoryWithoutScript(
                File "/src/services/worker/.venv/lib/python3.9/site-packages/datasets/load.py", line 1215, in get_module
                  module_name, default_builder_kwargs = infer_module_for_data_files(
                File "/src/services/worker/.venv/lib/python3.9/site-packages/datasets/load.py", line 591, in infer_module_for_data_files
                  raise DataFilesNotFoundError("No (supported) data files found" + (f" in {path}" if path else ""))
              datasets.exceptions.DataFilesNotFoundError: No (supported) data files found in nenekochan/yoruno-vn

这不是还什么都没有呢嘛(恼)(bgm38)
#9-1 - 2024-2-2 18:09
neneko
这个不是正经的 Hugging Face Dataset,因为我不敢明目张胆地……(小声
在网页界面上的 Files and versions 找到 7z 文件直接下载即可
#10 - 2024-2-2 17:30
对了,想顺便请教个问题,现在市面上那些cosplay聊天产品也是用数据集调整过的吗? 我感觉原版开放的这些chat平台好像都没法prompt到那么准确
#10-1 - 2024-2-2 18:17
neneko
我不是从业者,不太清楚各种方案的成本。自己微调训练确实比较可控,调用云服务的 API (如 OpenAI)也可以通过 system prompt 和 embeddings 提升效果,不过就要受平台监管了
#11 - 2024-2-2 18:27
(产出:社会学+3 观测:被动观测)
感谢开源数据集!(bgm105)
研究过SD、BERT、RVC,但是还没开始研究对话LLM。希望后面有机会搞搞RWKV之类的,结合gpt-sovits生成赛博Loli。
ai黄油指日可待(bgm39)
#12 - 2024-2-2 20:54
(看番人)
用夜羊社洛丽塔系列的脚本我是没想到的(bgm38)
#13 - 2024-2-2 20:58
记得看过一个专门翻译galgame轻小说的项目,应该有借鉴意义吧(夜羊社的重点是文风吗?)
#13-1 - 2024-2-3 06:18
Hyary
删除了回复
#13-2 - 2024-2-3 06:21
neneko
啊,看过那个项目,他们的数据集比我这个大不知多少个量级。因为专一地爱着夜羊社而数据量太少,我走的是论文 LIMA: Less Is More for Alignment 的路线,即只使用少量高质量数据来做微调。

夜羊厨的喃喃自语)就算撇去文风,夜羊社也很棒,如果文风又对上电波,那就是赚到了
#13-3 - 2024-2-3 08:43
persona
neneko 说: 啊,看过那个项目,他们的数据集比我这个大不知多少个量级。因为专一地爱着夜羊社而数据量太少,我走的是论文 LIMA: Less Is More for Alignment 的路线,即只使用少量高质量数据...
大模型微调太多人做了(bgm38)
#14 - 2024-2-2 21:43
(一觉醒来,世界上就只剩我一人)
让我来当测试员(bgm105)
#14-1 - 2024-2-3 06:18
Hyary
删除了回复
#15 - 2024-2-3 07:02
(Rigidity and Uncertainty~☆)
新概念AIGC,LLM界的新星(bgm38)
#16 - 2024-2-6 12:54
(mEtAyAyYEaye sphaela/.)
好,期待成果(bgm108)
#17 - 2024-2-6 12:57
辛苦了
#18 - 2024-2-7 12:57
(被时间捉住)
正义的!期待模型
#19 - 2024-2-11 14:37
suki