～技术宅真可怕～ » 讨论
开坑！用夜羊社洛丽塔系列的脚本训练语言大模型：数据集开源

#1 - 2024-2-2 09:00

neneko (_____的里界名义)

我提取了脚本，清理，然后把文本切分成了可用于训练的对话形式。

整理好的训练数据（犯罪证据）放到 Hugging Face 上了。

》》》这里《《《（Hugging Face 位于城墙之外）

当然，我去掉了所有西瓜肚的内容（抱歉，唯独这个，我…

约定

- 一星期后会发布用数据中对话为主的内容做微调训练的一个 7b 左右的模型，以能在手机上运行为目标，希望做一个让大家可以简单愉快玩耍的对话模型。
- 未来会发布用全量数据集做微调训练的一个 30~50b 的写作模型。模型能在对话之余，比较好地驾驭旁白描写刻画叙述，就是半自动写脚本（把 porori 囚禁在显卡里）。
- 只要我心中寂寞的深度没变，数据集和模型都会持续更新。

碎碎念

首先，感谢数据源背后的汉化组们，他们才是真正的英雄。

离“大黄油”又近了一步

隔壁家叔叔圣诞节了还在给盖噜给脚本做标注，你可千万不能变成那样.jpg

怎么说呢，做标注的感觉就是，用 vscode 推 galgame，或许有点能体会到汉化组的感觉 XD

有时候标注到一些非常夜羊味的文字，心里总是担心着，这样细腻的笔触也是能被模拟的吗？心意有好好传达给大型语言模型吗？

最后，希望有好心人帮忙转发贴吧和Q群（我都没有账号）、帮忙转存数据（我没有魔搭账号），注明来源即可。
最后的最后，希望在不久的将来见到有人用这个数据集训练出更好的模型。

#2 - 2024-2-2 09:19

朧月 (似梦非梦，似醒非醒。十年须臾，千里一步。)

看不懂但是赞一个

#3 - 2024-2-2 09:22

Residual

单走一个 6
等一个后续

#4 - 2024-2-2 09:45

arition

感谢开源数据集！想做类似的东西好久了，但三次元事务缠身一直没有机会开始

#4-1 - 2024-2-2 11:29

neneko

嘿嘿，我也是，想了很久，去年底下定决心开始做了。其实，忙的时候意外地会想开mo坑yu呢

#5 - 2024-2-2 09:53

imugnab (空邦哇)

这个世界就是一个巨大的黄油

#5-1 - 2024-2-2 11:31

neneko

每个人都不可避免地成为女主

#5-2 - 2024-2-2 18:27

Joh

neneko 说: 每个人都不可避免地成为女主

艹（实感）

#5-3 - 2024-2-2 21:37

禾芝

neneko 说: 每个人都不可避免地成为女主

啊啊，不要用客体化的目光凝视我呀！

#6 - 2024-2-2 10:37

镜子阁 (Dream a dream)

笑死了，加油

#7 - 2024-2-2 15:37

NineMeow (創造は生命。)

哪个7B底模？

#7-1 - 2024-2-2 16:53

neneko

下周五揭晓，我会公开成品和训练细节的

#8 - 2024-2-2 16:08

Elmo (ⓘ因违反社区原则发布低俗色情信息，该用户已被永久禁言)

#9 - 2024-2-2 17:15

シャナ俺の嫁

Cannot get the config names for the dataset.

Error code:   ConfigNamesError

Exception:    DataFilesNotFoundError

Message:      No (supported) data files found in nenekochan/yoruno-vn

Traceback:    Traceback (most recent call last):

                File "/src/services/worker/src/worker/job_runners/dataset/config_names.py", line 67, in compute_config_names_response

                  get_dataset_config_names(

                File "/src/services/worker/.venv/lib/python3.9/site-packages/datasets/inspect.py", line 347, in get_dataset_config_names

                  dataset_module = dataset_module_factory(

                File "/src/services/worker/.venv/lib/python3.9/site-packages/datasets/load.py", line 1840, in dataset_module_factory

                  raise e1 from None

                File "/src/services/worker/.venv/lib/python3.9/site-packages/datasets/load.py", line 1821, in dataset_module_factory

                  return HubDatasetModuleFactoryWithoutScript(

                File "/src/services/worker/.venv/lib/python3.9/site-packages/datasets/load.py", line 1215, in get_module

                  module_name, default_builder_kwargs = infer_module_for_data_files(

                File "/src/services/worker/.venv/lib/python3.9/site-packages/datasets/load.py", line 591, in infer_module_for_data_files

                  raise DataFilesNotFoundError("No (supported) data files found" + (f" in {path}" if path else ""))

              datasets.exceptions.DataFilesNotFoundError: No (supported) data files found in nenekochan/yoruno-vn

这不是还什么都没有呢嘛（恼） (bgm38)

#9-1 - 2024-2-2 18:09

neneko

这个不是正经的 Hugging Face Dataset，因为我不敢明目张胆地……（小声
在网页界面上的 Files and versions 找到 7z 文件直接下载即可

#10 - 2024-2-2 17:30

シャナ俺の嫁

对了，想顺便请教个问题，现在市面上那些cosplay聊天产品也是用数据集调整过的吗？我感觉原版开放的这些chat平台好像都没法prompt到那么准确

#10-1 - 2024-2-2 18:17

neneko

我不是从业者，不太清楚各种方案的成本。自己微调训练确实比较可控，调用云服务的 API （如 OpenAI）也可以通过 system prompt 和 embeddings 提升效果，不过就要受平台监管了

#11 - 2024-2-2 18:27

地球联合国驻茶话会观测站 (产出：社会学+3 观测：被动观测)

感谢开源数据集！

研究过SD、BERT、RVC，但是还没开始研究对话LLM。希望后面有机会搞搞RWKV之类的，结合gpt-sovits生成赛博Loli。
ai黄油指日可待 (bgm39)

#12 - 2024-2-2 20:54

乌丸千岁爱吃鱼 (看番人)

用夜羊社洛丽塔系列的脚本我是没想到的 (bgm38)

#13 - 2024-2-2 20:58

persona

记得看过一个专门翻译galgame轻小说的项目，应该有借鉴意义吧（夜羊社的重点是文风吗？）

#13-1 - 2024-2-3 06:18

Hyary

删除了回复

#13-2 - 2024-2-3 06:21

neneko

啊，看过那个项目，他们的数据集比我这个大不知多少个量级。因为专一地爱着夜羊社而数据量太少，我走的是论文 LIMA: Less Is More for Alignment 的路线，即只使用少量高质量数据来做微调。

夜羊厨的喃喃自语）就算撇去文风，夜羊社也很棒，如果文风又对上电波，那就是赚到了

#13-3 - 2024-2-3 08:43

persona

neneko 说: 啊，看过那个项目，他们的数据集比我这个大不知多少个量级。因为专一地爱着夜羊社而数据量太少，我走的是论文 LIMA: Less Is More for Alignment 的路线，即只使用少量高质量数据...

大模型微调太多人做了 (bgm38)

#14 - 2024-2-2 21:43

再见太阳 (一觉醒来，世界上就只剩我一人)

让我来当测试员

#14-1 - 2024-2-3 06:18

Hyary

删除了回复

#15 - 2024-2-3 07:02

th3ta "Paradox" (Rigidity and Uncertainty~☆)

新概念AIGC，LLM界的新星 (bgm38)

#16 - 2024-2-6 12:54

Black_tea (mEtAyAyYEaye sphaela/.)

好，期待成果

#17 - 2024-2-6 12:57

北雁云依

辛苦了

#18 - 2024-2-7 12:57

空诗 (被时间捉住)

正义的！期待模型

#19 - 2024-2-11 14:37

Sad

suki

/ 返回～技术宅真可怕～小组

～技术宅真可怕～ » 讨论开坑！用夜羊社洛丽塔系列的脚本训练语言大模型：数据集开源

～技术宅真可怕～ » 讨论
开坑！用夜羊社洛丽塔系列的脚本训练语言大模型：数据集开源