User:Hcm/日本語ロケールに於けるalias及びsort name: Difference between revisions

From MusicBrainz Wiki
Jump to navigationJump to search
No edit summary
(分割)
Line 1: Line 1:
日本語で索引を付けて並べ替えをするには、表記と一緒に読みも正しく設定しないといけないわけですが、それについての考察。
日本語で索引を付けて並べ替えをするには、表記と一緒に読みも正しく設定しないといけないわけですが、それについての考察。


これは日本語aliasに対するsort nameについての議論であり、Artistの項目に対するsort nameについては[[Style/Artist/Sort Name]]や[[Style/Language/Japanese#Transliteration into Latin Script]]を参照。
== 問題 ==


=== sort name(読み)での姓名のスペー ===
== サブペー ==


見出しレベルが深いと見た目がなんかアレになるので別ページに分けました。
姓と名前の間にスペースを入れるかどうかは重要で、それによって人の名前の並び方が大きく変わってしまいます。例として以下に挙げた人の名前がスペースの有無でどう並ぶかを考えます。


* [[User:Hcm/日本語ロケールに於けるalias及びsort name/問題]]
{| class="sortable wikitable"
* [[User:Hcm/日本語ロケールに於けるalias及びsort name/提案]]
! 姓:表記 !! 名:表記 !! 姓:読み !! 名:読み
|-
|堀 ||隆志 ||ほり ||たかし
|-
|堀江 ||雄太 ||ほりえ ||ゆうた
|-
|堀口 ||聡 ||ほりぐち ||さとる
|-
|堀谷 ||庸介 ||ほりや ||ようすけ
|-
|堀山 ||博 ||ほりやま ||ひろし
|-
|堀 ||若奈 ||ほり ||わかな
|}

スペースがある場合、姓・名が別々に並べ替えられ、電話帳で使われるような順番になります。

{| class="sortable wikitable"
!Alias !!Sort Name
|-
|堀隆志 ||ほり たかし
|-
|堀若奈 ||ほり わかな
|-
|堀江雄太 ||ほりえ ゆうた
|-
|堀口聡 ||ほりぐち さとる
|-
|堀谷庸介 ||ほりや ようすけ
|-
|堀山博 ||ほりやま ひろし
|}

スペースが無い場合、姓名の区別が無くなり、単純な辞書順になります。
{| class="sortable wikitable"
!Alias !!Sort Name
|-
|堀江雄太 ||ほりえゆうた
|-
|堀口聡 ||ほりぐちさとる
|-
|堀隆志 ||ほりたかし
|-
|堀山博 ||ほりやまひろし
|-
|堀谷庸介 ||ほりやようすけ
|-
|堀若奈 ||ほりわかな
|}

こんな感じで、見ての通り全く順番が変わってしまっています。特に堀若奈さんは姓だけだったら最初に来ていたのに名前も含めると一番最後に来てしまっています。もしスペースがあるデータと無いデータが混ざっていると、名前を探し出すのにあちこち飛ばされて面倒臭いことになります。

=== alias(表記)のスペース ===

日本語のaliasでたまに以下のような感じでスペース付きとスペース抜きの表記・読みを設定しているデータを見掛けます。

{| class="sortable wikitable"
|+ 例: [[artist:48fcad40-6e64-4987-9f1b-c1dbef5e062e|神保彰]]
!Alias !!Sort Name
|-
|神保 彰 ||じんぼ あきら
|-
|神保彰 ||じんぼあきら
|}

これは表記のスペースの有無に違いが有りますが、同じ読みを持つデータであり、この2つは同じ場所に並ぶことが望ましいです。そのためsort nameは表記のスペースにかかわらずどちらかに揃えないと先程と同じような問題が起こります。

== 提案 ==

=== 文字体系 ===

sort nameに使う文字は以下に限定する。

* 間隔(スペース)
** 『 』
** U+0020のみ使う。
* 丸括弧
** 『()』
* アラビア数字
** 『0123456789』
* 平仮名
** 『あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわゐゑをん』
** 『ゔがぎぐげござじずぜぞだぢづでどばびぶべぼぱぴぷぺぽ』
** 『ぁぃぅぇぉゕゖっゃゅょゎ』
* 片仮名
** 『アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヰヱヲン』
** 『ヴガギグゲゴザジズゼゾダヂヅデドバビブベボパピプペポヷヸヹヺ』
** 『ァィゥェォヵヶッャュョヮ』
* 長音
** 『ー』
* 下駄
** 『〓』

==== 補足 ====
* 間隔は姓名の区切り、シリーズ物の名前を分離するのに使う。
* 丸括弧は名義冒頭の『The』や『株式会社』など、索引に含めるのが不適当な物を末尾でまとめるために使う。
* アラビア数字はシリーズ物や代を表すものに使う。
* [https://ja.wikipedia.org/wiki/%E4%B8%8B%E9%A7%84%E8%A8%98%E5%8F%B7 下駄]は読みの一部のみがわからない場合にその箇所を埋めるために使う。日本語ロケールにおいて下駄はあらゆる文字クラスの後に並ぶことが期待されているため。
* JIS X 0213に収録されている、か行の鼻濁音である『か゚き゚く゚け゚こ゚』は、Unicodeにおいては単一のコードポイントが与えられておらず、例えば『[https://ja.wikipedia.org/wiki/%E3%81%8B%E3%82%9A か゚]』なら『か』に合成用半濁点のU+309Aを並べて表記する必要が有ります。これらの文字が他の濁音・半濁音が合成済みの仮名と混ざると、並べ替え処理が複雑になるので使わないほうが良いでしょう。
* 片仮名の捨て仮名は他に『ㇰㇱㇲㇳㇴㇵㇶㇷㇷ゚ㇸㇹㇺㇻㇼㇽㇾㇿ』があり、日本語の正書法には無くアイヌ語で用いられます。この内『[https://ja.wikipedia.org/wiki/%E3%87%B7%E3%82%9A ㇷ゚]』は『ㇷ』にU+309Aを並べる必要が有り、上段の『か゚き゚く゚け゚こ゚』を用いた時と同じ問題が起こります。このためアイヌ語を表記する手段であるこれら捨て仮名を使うのは避けたほうが良いように思います。


=== 基本 ===

基本的に表記を仮名に書き下したものをそのまま使う。名義中にアラビア数字や記号が使われている場合も読みに直して仮名を使う。

==== 例 ====

* [[artist:176650bf-db9c-48dd-8c01-376104966997|電気グルーヴ]] → でんきグルーヴ
* [[artist:0550993e-ddec-468e-b05f-da81bf6f7694|スピッツ]] → スピッツ
* [[artist:7dea80e3-0861-4c9c-86df-eec42fc2c5a8|T.M.Revolution]] → ティーエムレボリューション
* [[artist:6df3b2b5-e1a5-497f-833f-d653dd5da6a7|19]] → ジューク
* [[artist:0f774f0e-052e-48ae-8237-79359b9fd259|MONGOL800]] → モンゴルはっぴゃく
* [[artist:62b61409-d13e-4281-9e3f-06941c2c5f5f|L’Arc〜en〜Ciel]] → ラルクアンシエル

==== 補足 ====

書き下した後に濁点を除いたり捨て仮名を直したり平仮名か片仮名に揃えるということはしない。利用者側の都合によって利用者毎に変換すべきです。

これ以降の規則でsort nameに間隔が使われる場合でも、aliasには間隔を追加しない。

名義が複数の英単語からなる場合、単語の読みの間に間隔は'''入れない'''。

記号など読みに含まれないものはsort nameに入れない。

=== 冠詞など ===

『The』『ザ』など、一般的に索引に含められないものが先頭にある場合、それを丸括弧で囲み、末尾に移動させ、間隔を挿入する。

==== 例 ====

* [[artist:3b5e0d5a-b6c1-43d7-b890-c98d6cf82bf7|ザ・ドリフターズ]] → ドリフターズ (ザ)
* [[artist:db855eff-9d28-4bd7-ab2c-7301495b4669|THE ALFEE]] → アルフィー (ジ)
* [[artist:951eccde-094c-4e65-a138-dee97b42c466|YOU THE ROCK★]] → ユウザロック

=== 株式会社・有限会社など ===

stub

=== 代・巻・シリーズ番号など ===

『二代目田中太郎』など、ある名義についての続き物としての番号が降られているとみなせる場合、基本の名義の後に間隔を入れて、番号をアラビア数字に直して末尾に追加する。

==== 例 ====

* [[artist:50785e05-d34b-4b13-8972-e0bed5c67f97|十二代目市川團十郎]] → いちかわ だんじゅうろう 12
* [[work:4f288480-7314-417f-a98e-9ef099a9a80b|ファイナルファンタジーIX]] → ファイナルファンタジー 09

=== 人名 ===

アーティスト名が姓名に分けられ、それが『姓・名』と並んでいる場合、sort nameの姓と名の間に間隔を入れる。姓名の区別がない・姓名の区別があるが『姓・名』の順に並んでいない場合はそのままにする。

==== 例 ====

* [[artist:5565ae4b-bb20-48a4-a8b0-dfdeb53b555a|布袋寅泰]] → ほてい ともやす
* [[artist:434d8627-bdf4-40d1-b79f-c5684bf72de3|くまいもとこ]] → くまい もとこ
* [[artist:d5176cc6-3d8e-4cb1-a57e-5417c176aac8|バカボン鈴木]] → バカボンすずき

==== 補足 ====

名義が姓と名に分けられるが『姓・名』の順に並んでいない場合は、sort nameの為に姓名の順に入れ替えるということは'''しない'''。一般的に日本の音楽関連のアーティスト索引は純粋な読みの順番で並んでいるため。

=== 愛称/ミドルネームを含む名前 ===

stub. 名義が『姓・愛称/ミドルネーム・名前』となっている場合、sort nameは名前と愛称はそのままにするべきか入れ替えるべきか? ミドルネームと愛称で別の規則を作るべきか?

<!--
名義が『姓・ニックネーム/ミドルネーム・名前』となっている場合、ニックネーム/ミドルネームと名前を一つの名前として扱う。

==== 例 ====

* [[artist:5b1b9f5e-4407-4e0d-a32a-a3fb1eac1fcb|村上“ポン太”秀一]] → むらかみ ポンたしゅういち

==== 補足 ====

『むらかみ しゅういちポンた』や『むらかみ ポンた しゅういち』とはしない。
-->

=== 人名を含むグループ名 ===

グループ名義の先頭に人名が含まれている場合、人名と後続の部分を間隔を入れて分けて、更に人名の部分についてsort nameの規則を適用する。

==== 例 ====
* [[artist:5c913d38-8676-46ae-91f2-b315fbd27d08|弦一徹ストリングス]] → げん いってつ ストリングス
* [[artist:b64475cf-7706-4b1e-998e-adad25d35b21|佐山雅弘トリオ]] → さやま まさひろ トリオ

==== 補足 ====

このようにすることで、該当の名義がその人名の名義のすぐ後に並ぶことになり便利なため。

== 提案についての全体的な補足 ==

=== sort nameに対する姓名のスペースについて ===
巷のアーティストの索引を提供しているサイトでは、大体が名前にスペースを用いないため、辞書順で並ぶようになっています。にもかかわらずここで電話帳順になるような提案をしたのは、「アプリケーション側で間隔を取り除くだけで電話帳順から辞書順に簡単に変換できるから」です。電話帳順も辞書順も「最終的な読みは一緒」になりますから、電話帳順のデータを用意しさえすれば、あとでポリシーの違いで辞書順を使う必要が出てきても、先の操作だけで苦労せず移行できるはずで、結果的に両対応したことになります。これが、逆に辞書順から電話帳順に移行しようとなるとデータ全体を見直さなければならないため、一筋縄ではいかないでしょう…。


== 現実のデータに対する意見 ==
== 現実のデータに対する意見 ==
Line 210: Line 17:


* [http://kikakurui.com/x4/X4061-1996-01.html JIS X 4061:1996 日本語文字列照合順番]
* [http://kikakurui.com/x4/X4061-1996-01.html JIS X 4061:1996 日本語文字列照合順番]
** [https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E8%AA%9E%E6%96%87%E5%AD%97%E5%88%97%E7%85%A7%E5%90%88%E9%A0%86%E7%95%AA 日本語文字列照合順番 — jawp]
** [[Wikipedia:ja:日本語文字列照合順番]]

Revision as of 18:17, 11 September 2014

日本語で索引を付けて並べ替えをするには、表記と一緒に読みも正しく設定しないといけないわけですが、それについての考察。

これは日本語aliasに対するsort nameについての議論であり、Artistの項目に対するsort nameについてはStyle/Artist/Sort NameStyle/Language/Japanese#Transliteration into Latin Scriptを参照。

サブページ

見出しレベルが深いと見た目がなんかアレになるので別ページに分けました。

現実のデータに対する意見

あとで書く

参考文献