@omasanori それはUSのWeb界隈がen-USを慣例的に採用しちゃったからでは?
暗黙の了解でen-USはen-US-Latnと解釈されるだろっていう驕りというかなんというか
日本語もJa_JPで漢字ひらがなカタカナ混じりであるという驕りがありますが、やさしい日本語という新しい試みが迫っているので、ここは日本語Web圏全体でJa_JP_Hiraのような指定を頑張るべきなんじゃないかと
@keizou なので、ja-Hiraのようなタグは恐らく良いものですが、文字体系コードを必須にすることは必要な作業に見合わないと考えます
@omasanori なるほど納得感がある
この辺もうちょっと国やNTTが主導してドーンってやってくれた方が悩まないんですけどねぇ
@keizou まぁ、メタデータをどう書くかという土台は既にあるので、コンテンツを作る人々に周知され、ツールや環境が整備されるかどうか次第だと思います
@omasanori 今のままだと文字化けしちゃいそうだしねぇ
@keizou 別にエンコーディングは変わらないのでそこは心配ないと思います
@keizou IANAのLanguage Subtag Registryを確認したらjaに対して "Suppress-Script: Jpan" が指定されているので、先程省略した "the script subtag SHOULD be omitted (...) when the primary or extended language subtag's record in the subtag registry includes a 'Suppress-Script' field listing the applicable script subtag." に該当する明示的な非推奨パターンでした。無視に関する私の意見は先程と同じです
@keizou en-Latn-US(私の先程の表記はIETF言語タグの正しい語順ではありませんでした、ごめんなさい)のような表記は "(...) the script subtag SHOULD be omitted when it adds no distinguishing value to the tag or (...)"(RFC 5646, Section 2.2.3, p.13)に該当すると考えています。
また、仮にこのSHOULDとそもそも文字体系のサブタグは必須でないという点を無視するとしても、これまでメタデータにつけられたjaやja-JPを捨てずに処理するならja-Japnやja-Japn-JP相当だということになります。