« HTML5/CSS3でtableの色を一行おきに変える | トップページ | 夜間畜冷エアコンまたは部屋畜冷のすすめ »

♪キミタチ ハ ウチュウジン カ?音声合成の今

一週間くらい前に、TVで介護ロボット/機器の紹介を行っていました。

多くのマシンは合成音声で人に情報を伝えます。

聞いて腰を抜かしました。

中の幾つかは、まるで昭和の宇宙人の自動通訳音声なのです。

思わず

 キミタチ ハ ウチュウジン カ

と言いたくなってしまいました。

もちろん、ここまでひどくはなく、単語単語のアクセントは ついているのですが音そのものはこんな感じなのです。
不自然で実用性皆無だった大昔のMicroSoftの TTS(TextToSpeak)の声と殆ど変わらないのです。

見せたい技術はそこ、音声、ではないことは理解できます。

機械の担当者が音声合成技術に疎いのも良く分ります。

でも、今の時代にこんな音声。。。。CMの冗談ならともかく

。。と、調べてみると、いやあ、あんまりちゃんとしたもの ってないんですねえ。

たまたま、前の記事 ♪タイタンにTOSHIBAの音声合成サービスの出力を 使い、今一つと思ったのですが、調べるとこれでかなり上出来の部類なのだと 分りました。

どのソフトも子音にどうしても不自然なアタックが付いてしまいますし、 音そのものも変です。
ピッチ、長さの調整のために音をぶつ切りにして並べることにより 発生するフラッターエコー状のノイズ、子音と母音を区別せず 処理するために起こる子音のアタックや 鈍り、など原因は明らか なのになぜ長年対処せずほったらかしなのか謎です。
音が不自然であることに加えて、欲しい微調整もできません。
例えば、実際に人が喋る場合、例えば「細胞」などという単語は「低高高高」 なのですが、話の中で何度も出る場合は先頭の「低」が「高」になり「高高高高」となります。 毎回「低」から始めるとぎこちなさを感じてしまいます。ところが、 このTOSHIBAの音声合成サービスでは頭から「高低」というのは あっても「高高」は指定できないのです。自動で「高高」にする必要 まではありません。しかし、手動でそういう手直しは出来るべき なのです。
別のソフトでは「す」を無声化するかしないかといった指定が できません。
アクセント以外にも抑揚を付けたいことは幾らでもあります。田中角栄 は極端としても、音の高さは文全体としては2段ではありえません。 歌ほどではなくても高さの調整はできるべきです。

音声合成アルゴリズムを開発する側には朗読やアナウンスの技術 や喋る言葉に対するこだわりがなく、 朗読アナウンスの技術があり喋る言葉にこだわりがあるところには 音声合成技術がないのでしょう。

音声合成技術を持つところにしても、どのようにしてそれを 商売に結び付けて行くか非常に難しい面があります。
そのため、既に技術としては完璧に近いものが出来ているけれど 経済的な理由により民生市場に出ていないだけかも知れません。

介護以外でもインターフェースとして音声合成はとても 有用で、広く応用されるものだと思います。

安価で高性能なウチュウジンじゃない音声合成出力があってしかるべきです。

。。。そういうのが出来るのはNHKくらいしか無い気がして来ました。
あるいは自分で作るしかないか

### 2011/8/13
「キミタチハウチュウジンカ」の声を現在作成中の音声合成プログラム で無理やりイントネーションを平坦にしたものに置き換えました。

### 2011/7/3
「自分で作るしかないか」と書いたのが2011/6/14。その後、単純な サイン波音をプログラムで出すところから試し始めました。

|

« HTML5/CSS3でtableの色を一行おきに変える | トップページ | 夜間畜冷エアコンまたは部屋畜冷のすすめ »

トラックバック


この記事へのトラックバック一覧です: ♪キミタチ ハ ウチュウジン カ?音声合成の今:

« HTML5/CSS3でtableの色を一行おきに変える | トップページ | 夜間畜冷エアコンまたは部屋畜冷のすすめ »