User:Hcm/日本語ロケールに於けるalias及びsort name/提案

From MusicBrainz Wiki
Jump to navigationJump to search

文字体系

sort nameに使う文字は以下に限定する。

  • 間隔(スペース)
    • 『 』
    • U+0020のみ使う。
  • 丸括弧
    • 『()』
  • アラビア数字
    • 『0123456789』
  • 平仮名
    • 『あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわゐゑをん』
    • 『ゔがぎぐげござじずぜぞだぢづでどばびぶべぼぱぴぷぺぽ』
    • 『ぁぃぅぇぉゕゖっゃゅょゎ』
  • 片仮名
    • 『アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヰヱヲン』
    • 『ヴガギグゲゴザジズゼゾダヂヅデドバビブベボパピプペポヷヸヹヺ』
    • 『ァィゥェォヵヶッャュョヮ』
  • 長音
    • 『ー』
  • 下駄
    • 『〓』

補足

間隔は姓名の区切り、シリーズ物の名前を分離するのに使う。

丸括弧は名義冒頭の『The』など、索引に含めるのが不適当な物を末尾でまとめるために使う。

アラビア数字はシリーズ物や代を表すものに使う。

下駄は読みの一部のみがわからない場合にその箇所を埋めるために使う。日本語ロケールにおいて下駄はあらゆる文字クラスの後に並ぶことが期待されているため。

JIS X 0213に収録されている、か行の鼻濁音である『か゚き゚く゚け゚こ゚』は、Unicodeにおいては単一のコードポイントが与えられておらず、例えば『か゚』なら『か』に合成用半濁点のU+309Aを並べて表記する必要が有ります。これらの文字が他の濁音・半濁音が合成済みの仮名と混ざると、並べ替え処理が複雑になるので使わないほうが良いでしょう。

片仮名の捨て仮名は他に『ㇰㇱㇲㇳㇴㇵㇶㇷㇷ゚ㇸㇹㇺㇻㇼㇽㇾㇿ』があり、日本語の正書法には無くアイヌ語で用いられます。この内『ㇷ゚』は『ㇷ』にU+309Aを並べる必要が有り、上段の『か゚き゚く゚け゚こ゚』を用いた時と同じ問題が起こります。このためアイヌ語を表記する手段であるこれら捨て仮名を使うのは避けたほうが良いように思います。

基本

基本的に表記を仮名に書き下したものをそのまま使う。名義中にアラビア数字や記号が使われている場合も読みに直して仮名を使う。

補足

書き下した後に濁点を除いたり捨て仮名を直したり平仮名か片仮名に揃えるということはしない。利用者側の都合によって利用者毎に変換すべきです。

これ以降の規則でsort nameに間隔が使われる場合でも、aliasには間隔を追加しない。

記号など読みに含まれないものはsort nameに入れない。

名義に単語を区切る間隔や記号を含む場合でも、sort nameの中に間隔や記号などは入れない

冠詞など

『The』『ザ』など、一般的に索引に含められないものが先頭にある場合、それを丸括弧で囲み、末尾に移動させ、間隔を挿入する。

補足

括弧で囲む理由は、冠詞を抜かずにそのままソートする流派に対して入れ替える対象を抜き出しやすくさせたいという意図があります。

株式会社・有限会社など

株式会社などは一律省く。理由はあとでかく。

人名

アーティスト名が姓名に分けられ、それが『姓・名』と並んでいる場合、sort nameの姓と名の間に間隔を入れる。(下の)名前の部分がミドルネームなど複数の部分からなる場合はそのまま一つの名前として扱う。

姓名の区別がない・姓名の区別があるが『姓・名』の順に並んでいない場合はそのままにする。

補足

名義が姓と名に分けられるが『姓・名』の順に並んでいない場合は、sort nameの為に姓名の順に入れ替えるということはしない。一般的に日本の音楽関連のアーティスト索引は純粋な読みの順番で並んでいるため。

人名例外・クラシック音楽作曲家・演奏家

クラシック音楽作曲家・演奏家は苗字のみで索引を作られることが一般的なため、名義が『名・姓』と並んでいた場合はsort nameを『姓・名』に入れ替える。イニシャルは開く。

名義がフルネームで表記される場合が稀であると考えられる場合、苗字のみのaliasをprimaryとするのが好ましいかも知れない。

愛称を含む名前

名義が『姓・愛称・名前』となっている場合、愛称の部分を名前の後ろに置き、名前の一部として扱う。


代・巻・シリーズ番号など

『二代目田中太郎』など、ある名義についての続き物としての番号が降られているとみなせる場合、番号をアラビア数字に直して末尾に追加する。

別名義を含むグループ名

グループ名義の先頭に別アーティストの完全な名義が含まれていて、その後のフレーズがそれ単独で名義全体の構成を表していたり、別のグループ・人物を含む場合、先頭の名義がグループで後続の部分が編成の違いを表している場合は、以下の操作をする。

名義と後続の部分を間隔を入れて分けて、更に名義の部分についてsort nameの規則を適用する。

後続の部分の先頭が「の」「と」といった接続助詞や「ウィズ(with)」「フィーチャリング(featuring)」「アンド(and)」といったアーティスト同士を結ぶフレーズ、「ザ(the)」といった冠詞、「彼の」「ヒズ(his)」「ゼア(their)」「ズ(’s)」のような先の名義に対する所有格から始まる場合はそれを省く

後続の部分にさらに別の名義が含まれる場合はこれを繰り返す。

規則を適用
規則を適用しない
先頭部分が完全な名義を含まない場合は、基本の規則に準じる
Des-ROWを使った例
T‐SQUAREを使った例
複雑な例
  • ザ・田中太郎スーパーバンド → たなか たろう スーパーバンド (ザ)
  • 田中太郎アンド・ザ・スーパーバンド → たなか たろう スーパーバンド
  • The Tanakars and The Satows with their Orchestra → タナカーズ サトーズ オーケストラ (ザ)

補足

このようにすることで、該当の名義がその人名の名義のすぐ後に並ぶことになり便利なため。

全体的な補足

sort nameに対する姓名のスペースについて

巷のアーティストの索引を提供しているサイトでは、大体が名前にスペースを用いないため、辞書順で並ぶようになっています。にもかかわらずここで電話帳順になるような提案をしたのは、「アプリケーション側で間隔を取り除くだけで電話帳順から辞書順に簡単に変換できるから」です。電話帳順も辞書順も「最終的な読みは一緒」になりますから、電話帳順のデータを用意しさえすれば、あとでポリシーの違いで辞書順を使う必要が出てきても、先の操作だけで苦労せず移行できるはずで、結果的に両対応したことになります。これが逆に辞書順から電話帳順に移行しようとなると、データ全体を見直さなければならず大変な苦労を伴うでしょう。