#1 - 2016-1-30 03:31
ビノタ
目前维基人们对于一些如日期、数字之类的写法似乎未规范化,
想讨论一下:
1. 以后应该强制规范化吗?
2. 建议使用怎么样的格式呢?
3. 若维基人应该遵守相同的规范,那先前不符规范的条目如何处理呢?
目前我看到的几个未规范化的栏位:
1. 日期
目前日期的部分动画似乎大部分采用「YYYY年MM月DD日」这样的格式,
书籍从亚马逊抓取默认用的格式是「YYYY-MM-DD」,
动画的 ep 其实系统的格式也是「YYYY-MM-DD」。
另外人物条目看起来也没有统一的写法,
有的是「M月D日」有的是「MM月DD日」。
这个部分是否应该要有统一的标准?
2. ISBN 的写法
日亚抽来的书都是用 10 位的 ISBN,不带空格与「-」,
有些手工建立的条目是使用 13 位的,- 摆放的位置也未统一
3. 数字的小数点与分节符
其实我觉得这个挺猎奇的
看范例,这五个例子描述的是相同的数字:
Type 1: 123,456.789
Type 2: 123 456.789
Type 3: 123456.789
Type 4: 123 456,789
Type 5: 123456,789
4. 金额的货币单位标识
由于 Bangumi 的收录范围是全宇宙世界的 ACGN 作品,
难免会出现来自不同地区的货品,采用不同货币贩售。
对于货币单位的写法是否应该规范?
如「123¥CNY」或「123¥JPY」之类的?
其实我不是很熟现有的对于货币的国际标准……
我是建议这几样应该规范化,
如日期应该要同亚马逊抽来的跟 ep 的写法一致,
ISBN 如果是日本书籍建议用 10 位,一律不加 - 与空格。
数字的话则不输入分节符,小数点用句号。
一旦规范化了之后,如果用户习惯使用的格式跟规范的不同,
Bangumi 的系统也能更好地帮他做转换。
至于货币单位我不知道该怎么写
虽然我好像也没写过多少条目就是了
有任何意见都欢迎提出来讨论
想讨论一下:
1. 以后应该强制规范化吗?
2. 建议使用怎么样的格式呢?
3. 若维基人应该遵守相同的规范,那先前不符规范的条目如何处理呢?
目前我看到的几个未规范化的栏位:
1. 日期
目前日期的部分动画似乎大部分采用「YYYY年MM月DD日」这样的格式,
书籍从亚马逊抓取默认用的格式是「YYYY-MM-DD」,
动画的 ep 其实系统的格式也是「YYYY-MM-DD」。
另外人物条目看起来也没有统一的写法,
有的是「M月D日」有的是「MM月DD日」。
这个部分是否应该要有统一的标准?
2. ISBN 的写法
日亚抽来的书都是用 10 位的 ISBN,不带空格与「-」,
有些手工建立的条目是使用 13 位的,- 摆放的位置也未统一
3. 数字的小数点与分节符
其实我觉得这个挺猎奇的
看范例,这五个例子描述的是相同的数字:
Type 1: 123,456.789
Type 2: 123 456.789
Type 3: 123456.789
Type 4: 123 456,789
Type 5: 123456,789
4. 金额的货币单位标识
由于 Bangumi 的收录范围是全宇宙世界的 ACGN 作品,
难免会出现来自不同地区的货品,采用不同货币贩售。
对于货币单位的写法是否应该规范?
如「123¥CNY」或「123¥JPY」之类的?
其实我不是很熟现有的对于货币的国际标准……
我是建议这几样应该规范化,
如日期应该要同亚马逊抽来的跟 ep 的写法一致,
ISBN 如果是日本书籍建议用 10 位,一律不加 - 与空格。
数字的话则不输入分节符,小数点用句号。
一旦规范化了之后,如果用户习惯使用的格式跟规范的不同,
Bangumi 的系统也能更好地帮他做转换。
至于货币单位我不知道该怎么写
虽然我好像也没写过多少条目就是了
有任何意见都欢迎提出来讨论
其实我问的还有两个问题啊「应该强制规范化吗?」
话说你找到的那几个范例都是在 Bangumi 上现有例子的吗?居然会这么乱
維基百科是有一些 bot 在自動維護條目的,
針對一些問題 bot 會自動做修正
不过现在再去用bot去批量修复其实也没太大必要,应该直接走类似Wikidata的路线才更适合bangumi这种数据网站。现有的资料可以参考Semantic wiki的方式增加后台的鲁棒性直接自动提取出数据(再统一格式显示)。
其实这种问题也算是当年建站之初采用所谓维基式的弊端吧,优点是添加内容灵活许多不局限于固定的输入框,缺点就在于输入的数据完全不规范了。
但是吊诡之处在于现在的后台模式其实完全没有利用到维基的优点:并没有灵活多少,无非是一个可以加行的infobox而已,连内链“[[]]”的功能其实都相当于没有,还需要手动用关联功能来添加……
我感觉,维基其实并没有专门的infobox实现,我研究infobox发觉就是表格和模板的混合,不过是维基数据的垫脚石。有维基数据可以不必手动编辑infobox了。bgm只是浮于表面地抄infobox写法而已。
话说本来就是可以转换的
你愿意开发一个bot演示下吗。
畢竟 infobox 各字段沒有包含自己的型別
首先,http://www.amazon-asin.com/ 并不是Amazon官方提供的工具,其能做到什么做不到什么不足为据。就算他是官方的好了,人家叫ASIN工具,不叫ISBN工具,当然只能搜ASIN不能搜ISBN呀。
>根据这一点,我觉得可以认为亚马逊现在列出的ISBN-10其实就是ASIN。
这句话没错……但是说法很奇怪。图书当然是先有书号(不管是10还是13,本来就是可以一一对应的没区别),“亚马逊现在列出的ISBN-10其实就是ASIN”这种说法因果倒置。
其实一句话就能概括了:Amazon现在图书的ASIN沿用的是ISBN-10,但是最多算是个历史遗留问题(Amazon出现的时候还没ISBN-13呢吧)。
----
说了这么多废话,总而言之我同意你的观点,不能仅仅因为ASIN(一个理论上毫无约束力的第三方,Amazon)是ISBN-10,就强行用旧标准,硬要说的话Amazon基本所有图书也都有列ISBN-13不是?
其实现在还讨论这个没啥意义,因为系统改良之前无非是编者靠自觉,能去填ISBN就已经很不容易了。
而如果哪一天系统真的会改进,到底10还是13的转换都是非常trivial的
总之,我先是在前面提到过的亚马逊介绍不同编码的页面上(https://www.amazon.com/gp/seller/asin-upc-isbn-info.html)看到了ASIN是10位码,以及书籍的ASIN和其ISBN相同。虽然算是官方解释,但我又觉得这两点肯定没讲清楚,因为ASIN既然是10位,那就不可能和新标准ISBN-13相同(而且我又发现有人反馈过“亚马逊何时才能用ISBN-13作为ASIN”的问题)。
所以接下来我才想到去这个“多合一ASIN查询工具”(http://www.amazon-asin.com/ )上确认书籍的ASIN和其ISBN是否有关。先是在亚马逊上随便找本书,用其页面上显示的ISBN-10搜索,发现能搜到;然后再用其ISBN-13搜索,发现找不到,后一步一是为了确认ASIN肯定不是ISBN-13,二是排除一下此查询工具或许也可以直接用ISBN进行查询的可能性,从而说明第一步中能搜索到确实是因为书籍的ASIN采用了和ISBN-10相同的编码规则。
结论,比较肯定的是书籍的ASIN编码规则与ISBN-10相同,另有一条猜测则是亚马逊之所以在书籍页面上将ISBN-10和ISBN-13并列,其实是将ASIN以ISBN-10的名义列出。
------------------
回到正题,确实技术上ISBN-10和ISBN-13的转换是个很简单的问题,不过我的初衷是觉得既然格式需要规范化,那规范化本身应该先有个准确的标准,将来需要实现转化功能的时候也有个前提或依据嘛。