缘起
希望建立一个跟编程语言无关的拼音数据库, 方便大家使用这个拼音数据库去开发不同编程语言的拼音模块。
项目介绍
项目地址: https://github.com/mozillazg/pinyin-data
主要用的是 Unicode.org 旗下的 Unihan Database 项目里的拼音数据。 通过程序自动解析和合并 Unihan Database 中的拼音数据。
数据介绍
数据格式:{code point}: {pinyins} # {hanzi}
(示例:U+4E2D: zhōng,zhòng # 中
)
kHanyuPinyin.txt
: Unihan Database 中 kHanyuPinyin 部分的拼音数据(来源于《漢語大字典》的拼音数据)kHanyuPinlu.txt
: Unihan Database 中 kHanyuPinlu 部分的拼音数据(来源于《現代漢語頻率詞典》的拼音数据)kXHC1983.txt
: Unihan Database 中 kXHC1983 部分的拼音数据(来源于《现代汉语词典》的拼音数据)nonCJKUI.txt
: 不属于 CJK Unified Ideograph 但是却有拼音的字符kMandarin.txt
: Unihan Database 中 kMandarin 部分的拼音数据(普通话中最常用的一个读音。zh-CN 为主,如果 zh-CN 中没有则使用 zh-TW 中的拼音)overwrite.txt
: 手工校验的拼音数据(上面的拼音数据都是自动生成的,修改的话只修改这个就可以了)pinyin.txt
: 合并上述文件后的拼音数据zdic.txt
: 汉典网 的拼音数据
后续计划
- 将 python-pinyin, go-pinyin, rust-pinyin 里的拼音数据改为基于 pinyin-data 自动生成相关代码。 然后统一在 pinyin-data 这个项目中维护拼音数据(在 README 或 CONTRIBUTING.md 中增加提示)。
- 向 hotoo/pinyin 提一下这个仓库,看他是否有意使用这个仓库的数据。
Comments