私も日本も再生が不可欠だ

日々の雑感です。興味を惹かれたこと、やるせない思い、昔話など思いついたままに綴ります。

音声認識考

GoogleさんもMicroSoftさんも日本語の音声認識の精度向上に努力されているようです。結構な数のサンプルを集めて分析しているようですが、どうもあまり精度が上がらない模様。

これには理由がありまして、日本語の発音が正しいかどうかをチェックしているのは日本人ではないからです。

多少端折りましたが…
もう少し詳しく書きますと、日本語の音声を日本語に書き起こすのは日本人が担当していますが、その書き起こした日本語が正しいかどうかの判断を行っているのは日本人ではありません。

おそらくインド人とか中国人とかで日本語を学習した人たちでしょう。
英語や他国語で成功したモデルをそのまま日本語にもあてはめたようですね。

日本語ネイティブでさえ主語や目的語がはっきりしていない文章を解析するのはとても難しいのに、その判断を外国人にやらせても日本語の音声認識制度は上がらないと思いますよ。

まして、日本語ネイティブの私が書いた文章をインド人や中国人に「あなたの日本語正しくないよ」といわれたくないなぁ。

たしかに北海道なまりは少し残っているかもしれないけど、こちとら2000年以上日本語を使ってきた者たちの末裔。
学校で少しばかりの日本語を習っただけの人間に判断されるようなちゃちな日本語を使ってはおりません。

とはいえ、このブログを読むと確かに「あなたの日本語正しくないよ」と言われること必至ですが(爆)