我有一部辞书叫"汉语大字典", 这是我见过收字量最大的字典.足足收集了6万多个汉字.看着这里面种种不认识的字,我觉得这个博士简直就是白读了,不得不感叹, 汉字实在是太丰富了,难怪外国人觉得汉语是最难学的几种语言之一.
但是见过Unicode 13.0的汉字数据库之后, 这种感觉更加恐怖, 我不再觉得自己是个博士,而应该是个小学生,看着密密麻麻的生字,绝大部分我都不认识, 感觉自己就是九牛上那一根细毛啊.
不信,你可以下载这个文件打开来看看: RS Index
虽然没有任何字义解释,但是,作为一份公认的标准,它的汉字收字量可能是最大的。(当然还有一份收字量更大的文件也就是Unicode 13的代码点位表,它还包括了汉语之外其它语言中的符号)。我把它称为最大的字典。如果你想知道这个汉字有没有被国际公认,查这个文件RSindex.pdf就对了。
RS是Radical Stroke的缩写,偏旁和笔画(也有用“笔划”这个词的)的意思。了解一下它的索引方式对提高查询速度是有帮助的。它前面是偏旁索引,每个偏旁都有一个编号,每个偏旁不同形态如简体、繁体是合并放在一起的。要注意的是,这个偏旁的设计与新华字典是有些不同的,可能采用的是“康熙字典”里的偏旁--比如建字底可以找到,但走之旁就看不到,其实它归入了编号162的偏旁。偏旁的编号也是从笔划少到笔划多来排列的。
在正文检索部分,按偏旁的顺序从前往后排,每个偏旁之内,按剩下的笔划数来排。夹杂在正文中大一点的数字如1,2,3,4等,是除去偏旁后该汉字剩下的笔划数。当然首先排列的是偏旁自身这个汉字,其次是增加笔划的汉字。
在每个汉字下面有4位或5位的十六进制数字(0-9, A-F),代表的是这个字符在Unicode编码表中的码点(Code point), 说白了就是在标准中的唯一编号。这个是没有转换过的编号,与UTF8等编码处理之后的值不同。
现在你看一眼吧,厶字偏旁下,你认识哪些字?
说到这里,再说几个特殊的例子,前面讲过的biang字是一例,这里再讲一些新发现的化学元素用的汉字,这些化学元素名大部分是新造的汉字,平时很难打出来,主要困难在于:1)多数输入法没有收录它们 ,2)大多数字体文件也没有收录它们 3)还有些情况下软件不支持这类汉字的显示。 所以有时人们不得不用两个字来表示这种汉字。但其实如果知道方法,是可以打出来的。对应的方法是(以下条件都要具备)
1)找到支持这种汉字输出的输入法,要不你就去别的地方一个一个复制,或者Word中还可以用Unicode编码+Alt-X快捷键来输入。五笔输出的这里有一个 黄狗大字符输入法,拼音的我不知道,有些汉字的拼音可能都没有标准,是不是拼音输入法就无法使用?
2)找到支持这种汉字的字体并安装。上面的输入法安装带了一个这样的字体,你也可以再找找别的支持大字符集的字体。因为汉字在标准收录中是不断扩展的,从扩展A一直到现在的扩展G,到目前为止没几个字体能支持扩展A到G的所有汉字,像海峰五笔带的那个Unifonts包也就支持到扩展B。
3)软件要支持这种大字符集的汉字显示,有些英文小软件可能是支持不了,我知道Office的几个软件应该是没有问题的。
所以,我特意在这个大字典中,找齐了113铹之后的几个元素的汉字,做成一个PDF文件供大家分享。如果要用到这几个汉字,可以复制到 你的软件中。铹以后化学元素的中文名.pdf