#1 - 2022-11-15 23:17
gyakkun
230403:

得益于超展开改版, 日志的相关更新会被顶上来, 样例网站现支持查看日志的历史版本。

另由于「贴贴」功能的加入, 讨论帖主题模板改版, 原来的解析失效, 所以样例网站原json格式的API暂时停止工作。 已修复

提供一个UserScript方便定位到历史页。
https://openuserjs.org/scripts/g ... Subject_Topic_Alpha


服务器比较弱, 如遇繁忙/报错请耐心等待。

----------------------

230319:

已经稳定运行一段时间了 (指基本没人用)。新增可读日期页, 毕竟不是每个人类都会认Unix时间戳。

GET /history/(subject|group)/:topicId/link

e.g.
https://bgm.nyamori.moe/history/subject/892/link
https://bgm.nyamori.moe/history/group/374807/link

另外样例网站和爬取服务是在两个不同的服务器上, 最多会有~2h的延迟。

----------------------

221117:

感谢老板首肯。样例网站会继续运行下去。

新增以下请求路径:

GET /history/(subject|group)/:topicId/latest : 会自动302跳到最新的json
GET /history/(subject|group)/:topicId/:millisecondTimestamp/html: 会显示原始爬下来的html
GET /history/(subject|group)/:topicId/latest/html: 会显示最新爬到的html

e.g.
https://bgm.nyamori.moe/history/subject/892/latest
https://bgm.nyamori.moe/history/subject/892/1668434660993/html
https://bgm.nyamori.moe/history/subject/892/latest/html
----------------------

221115:

代码
https://github.com/gyakkun/bgm-archive-sh
https://github.com/gyakkun/bgm-archive-kt

请求路径:
GET /history/(subject|group)/:topicId
GET /history/(subject|group)/:topicId/:millisecondTimestamp
Unix毫秒时间戳不存在的话会302往前跳到最近的一个, 太早的话会跳到第一个

响应格式: JSON, 具体自己看

样例网站 (Since ~2022-11-04):
https://bgm.nyamori.moe/history/subject/892
https://bgm.nyamori.moe/history/subject/892/1668434660993
学姐楼由于量太大, 解析结果不一定是准确的。其他小楼估计还可以。

前端? 额, 没时间搓了, 欢迎来搓。

@Sai🖖 置评请求, 如果有违任何使用条款, 上述样例网站会立即停止服务。
#2 - 2022-11-15 23:36
(Awesome!)
有时间不如来做新站
https://github.com/bangumi/server
#3 - 2022-11-16 00:11
mark
#4 - 2022-11-17 17:14
221117 Update
#5 - 2023-3-19 18:48
230319 Update

新增可读日期页
#6 - 2023-4-3 16:39
230403 Update

新增日志支持
#7 - 2023-4-15 14:13
(nobody cares.)
可以,就爬你了。
#8 - 2023-4-15 14:14
(『一言以蔽之,就是「爱」!』)
这个好。
#9 - 2023-4-15 16:58
(。´-д-)
超展开什么时候更新了日志功能的,有帖子么?
#9-1 - 2023-4-15 17:06
删除了回复
#9-2 - 2023-4-16 16:37
糸色企鹅
我329刷到了 估计和人物那个同时发的吧
#9-3 - 2023-4-16 18:17
Cedar
糸色企鹅 说: 我329刷到了 估计和人物那个同时发的吧
(bgm38)人物那个又是什么?
#9-4 - 2023-4-16 19:07
糸色企鹅
Cedar 说: 人物那个又是什么?
人物共演关联
#9-5 - 2023-4-16 19:49
Cedar
糸色企鹅 说: 人物共演关联
喔,那个我知道,多谢!
#10 - 2023-4-16 02:55
(nobody cares.)
能给个独立的api显示当前缓存了的max_topic_id么(subject以及group的)
#10-1 - 2023-4-16 15:48
gyakkun
因为爬的时候可能有各种异常所以没法给出准确的max_topic_id, 这里给一个API获取上一次爬了哪些ID (缓存30分钟)。一般group和subject是100个, blog是50个, 如果有主题被删除/关闭/下沉的话可能会少于上述数量。

GET /history/(blog|group|subject)/latest_topic_list
e.g. https://bgm.nyamori.moe/history/group/latest_topic_list

另外写这个的目的并不是服务于下游爬虫的, 所以你会注意到性能非常的捉急。这是由于背靠的是两个git仓库(参考了https://github.com/TomoeMami/S1PlainTextBackup), 而git和jgit对大仓库(提交数1w~10w级别, git对象数量10w~100w级别, 仓库总体积100MB~1000MB级别) 的检索就是这么慢。受限于使用条款我不能向你公开原始的这两个仓库, 还请理解。
#10-2 - 2023-4-16 15:54
徒手开根号二
gyakkun 说: 因为爬的时候可能有各种异常所以没法给出准确的max_topic_id, 这里给一个API获取上一次爬了哪些ID (缓存30分钟)。一般group和subject是100个, blog是50个, 如果有...
全世界都在白嫖github//主站我前两天试了试,单个ip拉取topic可以做到10req/s很少503;你这个访问效率大概可以做到?
#10-3 - 2023-4-16 15:58
gyakkun
徒手开根号二 说: 全世界都在白嫖github//主站我前两天试了试,对于topic可以做到10req/s很少503;你这个访问效率大概可以做到?
做不到的, 你可以按顺序一个个访问 /history/group/:id/latest, 看看响应时间, 这就是jgit在此工况下的真实性能, 我测了1vcpu512m的服务器和我本地强很多的电脑, 响应时间没有数量级的差异。
#11 - 2023-4-16 16:01
(红色闭关 蓝色通常运转)
日志那边好像如果不关联条目就不显示历史按钮
#11-1 - 2023-4-16 16:06
徒手开根号二
改一下selector($("#related_subject_list")),挂到别的地方就行了
#11-2 - 2023-4-16 16:20
gyakkun
已改