pinyin-data: 汉字拼音数据库

缘起

希望建立一个跟编程语言无关的拼音数据库, 方便大家使用这个拼音数据库去开发不同编程语言的拼音模块。

项目介绍

项目地址: https://github.com/mozillazg/pinyin-data

主要用的是 Unicode.org 旗下的 Unihan Database 项目里的拼音数据。 通过程序自动解析和合并 Unihan Database 中的拼音数据。

数据介绍

数据格式:{code point}: {pinyins} # {hanzi} (示例:U+4E2D: zhōng,zhòng # 中

  • kHanyuPinyin.txt: Unihan DatabasekHanyuPinyin 部分的拼音数据(来源于《漢語大字典》的拼音数据)
  • kHanyuPinlu.txt: Unihan DatabasekHanyuPinlu 部分的拼音数据(来源于《現代漢語頻率詞典》的拼音数据)
  • kXHC1983.txt: Unihan DatabasekXHC1983 部分的拼音数据(来源于《现代汉语词典》的拼音数据)
  • nonCJKUI.txt: 不属于 CJK Unified Ideograph 但是却有拼音的字符
  • kMandarin.txt: Unihan DatabasekMandarin 部分的拼音数据(普通话中最常用的一个读音。zh-CN 为主,如果 zh-CN 中没有则使用 zh-TW 中的拼音)
  • overwrite.txt: 手工校验的拼音数据(上面的拼音数据都是自动生成的,修改的话只修改这个就可以了)
  • pinyin.txt: 合并上述文件后的拼音数据
  • zdic.txt: 汉典网 的拼音数据

后续计划


Comments