User:Hcm/日本語ロケールに於けるalias及びsort name/提案
文字体系
sort nameに使う文字は以下に限定する。
- 間隔(スペース)
- 『 』
- U+0020のみ使う。
- 丸括弧
- 『()』
- アラビア数字
- 『0123456789』
- 平仮名
- 『あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわゐゑをん』
- 『ゔがぎぐげござじずぜぞだぢづでどばびぶべぼぱぴぷぺぽ』
- 『ぁぃぅぇぉゕゖっゃゅょゎ』
- 片仮名
- 『アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヰヱヲン』
- 『ヴガギグゲゴザジズゼゾダヂヅデドバビブベボパピプペポヷヸヹヺ』
- 『ァィゥェォヵヶッャュョヮ』
- 長音
- 『ー』
- 下駄
- 『〓』
補足
- 間隔は姓名の区切り、シリーズ物の名前を分離するのに使う。
- 丸括弧は名義冒頭の『The』など、索引に含めるのが不適当な物を末尾でまとめるために使う。
- アラビア数字はシリーズ物や代を表すものに使う。
- 下駄は読みの一部のみがわからない場合にその箇所を埋めるために使う。日本語ロケールにおいて下駄はあらゆる文字クラスの後に並ぶことが期待されているため。
- JIS X 0213に収録されている、か行の鼻濁音である『か゚き゚く゚け゚こ゚』は、Unicodeにおいては単一のコードポイントが与えられておらず、例えば『か゚』なら『か』に合成用半濁点のU+309Aを並べて表記する必要が有ります。これらの文字が他の濁音・半濁音が合成済みの仮名と混ざると、並べ替え処理が複雑になるので使わないほうが良いでしょう。
- 片仮名の捨て仮名は他に『ㇰㇱㇲㇳㇴㇵㇶㇷㇷ゚ㇸㇹㇺㇻㇼㇽㇾㇿ』があり、日本語の正書法には無くアイヌ語で用いられます。この内『ㇷ゚』は『ㇷ』にU+309Aを並べる必要が有り、上段の『か゚き゚く゚け゚こ゚』を用いた時と同じ問題が起こります。このためアイヌ語を表記する手段であるこれら捨て仮名を使うのは避けたほうが良いように思います。
基本
基本的に表記を仮名に書き下したものをそのまま使う。名義中にアラビア数字や記号が使われている場合も読みに直して仮名を使う。
例
- 電気グルーヴ → でんきグルーヴ
- スピッツ → スピッツ
- T.M.Revolution → ティーエムレボリューション
- 19 → ジューク
- MONGOL800 → モンゴルはっぴゃく
- L’Arc〜en〜Ciel → ラルクアンシエル
補足
書き下した後に濁点を除いたり捨て仮名を直したり平仮名か片仮名に揃えるということはしない。利用者側の都合によって利用者毎に変換すべきです。
これ以降の規則でsort nameに間隔が使われる場合でも、aliasには間隔を追加しない。
名義が複数の英単語からなる場合、単語の読みの間に間隔は入れない。
記号など読みに含まれないものはsort nameに入れない。
冠詞など
『The』『ザ』など、一般的に索引に含められないものが先頭にある場合、それを丸括弧で囲み、末尾に移動させ、間隔を挿入する。
例
- ザ・ドリフターズ → ドリフターズ (ザ)
- THE ALFEE → アルフィー (ジ)
- YOU THE ROCK★ → ユウザロック
補足
括弧で囲む理由は、冠詞を抜かずにそのままソートする流派に対して入れ替える対象を抜き出しやすくさせたいという意図があります。
株式会社・有限会社など
株式会社などは一律省く。理由はあとでかく。
代・巻・シリーズ番号など
『二代目田中太郎』など、ある名義についての続き物としての番号が降られているとみなせる場合、番号をアラビア数字に直して末尾に追加する。
例
- (十二代目)市川團十郎 → いちかわ だんじゅうろう12
- ファイナルファンタジーIX → ファイナルファンタジー09
人名
アーティスト名が姓名に分けられ、それが『姓・名』と並んでいる場合、sort nameの姓と名の間に間隔を入れる。姓名の区別がない・姓名の区別があるが『姓・名』の順に並んでいない場合はそのままにする。
例
補足
名義が姓と名に分けられるが『姓・名』の順に並んでいない場合は、sort nameの為に姓名の順に入れ替えるということはしない。一般的に日本の音楽関連のアーティスト索引は純粋な読みの順番で並んでいるため。
人名例外・クラシック音楽作曲家
欧米系のクラシック音楽作曲家は苗字のみで索引を作られることが一般的なため、名義が『名・姓』と並んでいた場合はsort nameを『姓・名』に入れ替える。イニシャルは開く。
名義がフルネームで表記される場合が稀であると考えられる場合、苗字のみのaliasをprimaryとするのが好ましいかも知れない。
例
愛称/ミドルネームを含む名前
stub. 名義が『姓・愛称/ミドルネーム・名前』となっている場合、sort nameは名前と愛称はそのままにするべきか入れ替えるべきか? ミドルネームと愛称で別の規則を作るべきか?
別名義を含むグループ名
グループ名義の先頭に別アーティストの完全な名義が含まれていて、その後のフレーズがそれ単独で名義全体の構成を表していたり、別のグループ・人物を含む場合、先頭の名義がグループで後続の部分が編成の違いを表している場合は、以下の操作をする。
名義と後続の部分を間隔を入れて分けて、更に名義の部分についてsort nameの規則を適用する。
後続の部分の先頭が「の」「と」といった接続助詞や「ウィズ(with)」「フィーチャリング(featuring)」「ズ(’s)」「アンド(and)」といったアーティスト同士を結ぶフレーズ、「ザ(the)」といった冠詞から始まる場合はそれを省く
後続の部分にさらに別の名義が含まれる場合はこれを繰り返す。
例
- 弦一徹ストリングス → げん いってつ ストリングス
- 佐山雅弘トリオ → さやま まさひろ トリオ
- 仙波清彦とはにわオールスターズ → せんば きよひこ はにわオースルターズ
- 井上陽水奥田民生 → いのうえ ようすい おくだ たみお
- 宇崎竜童&R・Uコネクションwith井上堯之 → うざき りゅうどう アールユーコネクション いのうえ たかゆき
- Shikao & The Family Sugar → シカオアンドザファミリーシュガー
- 村山・落合ストリングス → むらやまおちあいストリングス
- Des-ROW → ディースロウ
- Des-ROW・スペ志アル → ディースロウ スペシアル
- Des-ROW・組 → ディースロウぐみ
- Des-ROW・組スペシアル → ディースロウぐみ スペシアル
- Des-ROW・組スペシアルr → ディースロウぐみ スペシアルアール
- T‐SQUARE SUPER BAND → ティースクェア スーパーバンド
- T‐SQUARE plus → ティースクェア プラス
- T‐SQUARE and FRIENDS → ティースクェア フレンズ
- ザ・田中太郎スーパーバンド → たなか たろう スーパーバンド (ザ)
- 田中太郎アンド・ザ・スーパーバンド → たなか たろう スーパーバンド
補足
このようにすることで、該当の名義がその人名の名義のすぐ後に並ぶことになり便利なため。
全体的な補足
sort nameに対する姓名のスペースについて
巷のアーティストの索引を提供しているサイトでは、大体が名前にスペースを用いないため、辞書順で並ぶようになっています。にもかかわらずここで電話帳順になるような提案をしたのは、「アプリケーション側で間隔を取り除くだけで電話帳順から辞書順に簡単に変換できるから」です。電話帳順も辞書順も「最終的な読みは一緒」になりますから、電話帳順のデータを用意しさえすれば、あとでポリシーの違いで辞書順を使う必要が出てきても、先の操作だけで苦労せず移行できるはずで、結果的に両対応したことになります。これが、逆に辞書順から電話帳順に移行しようとなるとデータ全体を見直さなければならないため、一筋縄ではいかないでしょう…。