GoogleJapaneseInputとMozcのCategoryについて

protocol内ではここにある。"品詞"という意味の英語である"parts of speech"の頭文字を取ってposナノではないかと予想できる。

今回この記事を書いているのはdictionary-builderの調査を兼ねてであるが、以下にまとめておく。

dictionary builderにおける使われ方とかのメモ

  • 名詞
    • 使いそうだけど実はあんまり使わない
    • というのも、このツールだと固有名詞を登録することが多い
  • 短縮よみ
    • 実は案外使えたりする?かなって思ったけど思い浮かばない
    • キンプリ->KING OF PRISMとか、タイトルの略称を展開するやつみたいな?
  • 固有名詞
    • タイトル、楽曲名がここに入る
  • 人名
    • キャラクター名がここかなぁ
    • あんまり使わないけど珍しい名字の(変換できない)キャラだと入れても便利かもしれない
    • 同上
  • 組織
    • ユニット名とか学校名、部活名……あたりがここにくるのかな
    • ORGANIZATION_NAMEなので、割と広めに解釈できそう
    • 悩みとしては固有名詞との線引きが難しい
  • 地名
    • そのまま
  • 顔文字
    • 最近あんまりないかも
    • ζ*'ヮ')ζとか、のワのとかがここに入るはず

あと「かしこまっ!」とか「キラやば〜っ☆」はまとめて独立語でいい気がする。変換精度的には感動詞のほうがいいのかな?

日本語に詳しい人ではないので、そのあたりが自然言語処理的にどうなのかで判断したほうがいいかも。

とりあえず一旦調査を終えたいと思います。見たサイトを載せておくのでぜひ。

参考

github.comprowriters.jp第2節 特定の品詞に付く接尾語

Google日本語入力の「短縮よみ」「抑制単語」って何?