User:Hcm/日本語ロケールに於けるalias及びsort name/提案

From MusicBrainz Wiki
Jump to navigationJump to search

文字体系

sort nameに使う文字は以下に限定する。

  • 間隔(スペース)
    • 『 』
    • U+0020のみ使う。
  • 丸括弧
    • 『()』
  • アラビア数字
    • 『0123456789』
  • 平仮名
    • 『あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわゐゑをん』
    • 『ゔがぎぐげござじずぜぞだぢづでどばびぶべぼぱぴぷぺぽ』
    • 『ぁぃぅぇぉゕゖっゃゅょゎ』
  • 片仮名
    • 『アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヰヱヲン』
    • 『ヴガギグゲゴザジズゼゾダヂヅデドバビブベボパピプペポヷヸヹヺ』
    • 『ァィゥェォヵヶッャュョヮ』
  • 長音
    • 『ー』
  • 下駄
    • 『〓』

補足

  • 間隔は姓名の区切り、シリーズ物の名前を分離するのに使う。
  • 丸括弧は名義冒頭の『The』や『株式会社』など、索引に含めるのが不適当な物を末尾でまとめるために使う。
  • アラビア数字はシリーズ物や代を表すものに使う。
  • 下駄は読みの一部のみがわからない場合にその箇所を埋めるために使う。日本語ロケールにおいて下駄はあらゆる文字クラスの後に並ぶことが期待されているため。
  • JIS X 0213に収録されている、か行の鼻濁音である『か゚き゚く゚け゚こ゚』は、Unicodeにおいては単一のコードポイントが与えられておらず、例えば『か゚』なら『か』に合成用半濁点のU+309Aを並べて表記する必要が有ります。これらの文字が他の濁音・半濁音が合成済みの仮名と混ざると、並べ替え処理が複雑になるので使わないほうが良いでしょう。
  • 片仮名の捨て仮名は他に『ㇰㇱㇲㇳㇴㇵㇶㇷㇷ゚ㇸㇹㇺㇻㇼㇽㇾㇿ』があり、日本語の正書法には無くアイヌ語で用いられます。この内『ㇷ゚』は『ㇷ』にU+309Aを並べる必要が有り、上段の『か゚き゚く゚け゚こ゚』を用いた時と同じ問題が起こります。このためアイヌ語を表記する手段であるこれら捨て仮名を使うのは避けたほうが良いように思います。

基本

基本的に表記を仮名に書き下したものをそのまま使う。名義中にアラビア数字や記号が使われている場合も読みに直して仮名を使う。

補足

書き下した後に濁点を除いたり捨て仮名を直したり平仮名か片仮名に揃えるということはしない。利用者側の都合によって利用者毎に変換すべきです。

これ以降の規則でsort nameに間隔が使われる場合でも、aliasには間隔を追加しない。

名義が複数の英単語からなる場合、単語の読みの間に間隔は入れない

記号など読みに含まれないものはsort nameに入れない。

冠詞など

『The』『ザ』など、一般的に索引に含められないものが先頭にある場合、それを丸括弧で囲み、末尾に移動させ、間隔を挿入する。

株式会社・有限会社など

stub

代・巻・シリーズ番号など

『二代目田中太郎』など、ある名義についての続き物としての番号が降られているとみなせる場合、基本の名義の後に間隔を入れて、番号をアラビア数字に直して末尾に追加する。

人名

アーティスト名が姓名に分けられ、それが『姓・名』と並んでいる場合、sort nameの姓と名の間に間隔を入れる。姓名の区別がない・姓名の区別があるが『姓・名』の順に並んでいない場合はそのままにする。

補足

名義が姓と名に分けられるが『姓・名』の順に並んでいない場合は、sort nameの為に姓名の順に入れ替えるということはしない。一般的に日本の音楽関連のアーティスト索引は純粋な読みの順番で並んでいるため。

愛称/ミドルネームを含む名前

stub. 名義が『姓・愛称/ミドルネーム・名前』となっている場合、sort nameは名前と愛称はそのままにするべきか入れ替えるべきか? ミドルネームと愛称で別の規則を作るべきか?


人名を含むグループ名

グループ名義の先頭に人名が含まれている場合、人名と後続の部分を間隔を入れて分けて、更に人名の部分についてsort nameの規則を適用する。

補足

このようにすることで、該当の名義がその人名の名義のすぐ後に並ぶことになり便利なため。

全体的な補足

sort nameに対する姓名のスペースについて

巷のアーティストの索引を提供しているサイトでは、大体が名前にスペースを用いないため、辞書順で並ぶようになっています。にもかかわらずここで電話帳順になるような提案をしたのは、「アプリケーション側で間隔を取り除くだけで電話帳順から辞書順に簡単に変換できるから」です。電話帳順も辞書順も「最終的な読みは一緒」になりますから、電話帳順のデータを用意しさえすれば、あとでポリシーの違いで辞書順を使う必要が出てきても、先の操作だけで苦労せず移行できるはずで、結果的に両対応したことになります。これが、逆に辞書順から電話帳順に移行しようとなるとデータ全体を見直さなければならないため、一筋縄ではいかないでしょう…。