Meta「Voicebox」

AI
この記事は約3分で読めます。

MetaがVoiceboxを発表

Metaが「Voicebox」を発表しました。

AIチャットボットや生成AIツールがますます人気を集める中、ビジネスの主要なプレイヤーの中には、独自のツールで競争に勝ち残ろうとする動きが見られます。Metaは、既存のすべてのモデルを凌駕するほど強力なテキストガイド型の人工知能音声生成ツール、Voiceboxを発表しました。

Voiceboxは、ChatGPTがテキストを生成するのと同じように、簡単に声を生成することができるほどの強力さを持っています。BingやDall-E 2が画像を生成することができるのと同様です。ただし、このシステムはまだ一般に利用可能ではありませんが、MetaはVoiceboxについて詳しく知りたいという人なら誰でもデモを利用できます。

Voiceboxの機能と応用

このシステムは、コンテンツクリエーターや編集者がオーディオ編集で使用することができます。声の生成により、自然な音声クリップを作成することができます。また、犬の吠え声などのノイズを知的に編集し、音声を再生成することも可能です。

Voiceboxの特徴の一つは、音声のスタイルに合わせてテキスト読み上げクリップを生成できることです。視覚障がいのあるユーザーは、友人の2秒程度の音声クリップをVoiceboxに与えることで、AIを使って友人のメッセージを彼らの声で読み上げることができます。

MetaはVoiceboxを最適な性能で使用するために、60,000時間の英語のオーディオブックと6つの言語で50,000時間の多言語のオーディオブックでトレーニングしました。トレーニングによって、Voiceboxはトレーニングを受けることなく多言語のテキスト読み上げ、音声のノイズ除去、スタイリング、編集、さまざまな音声サンプルの生成が可能になりました。

MetaAIによる公開された論文によれば、VoiceboxはMicrosoftのVALL-Eよりも20倍速く多様なオーディオサンプルを生成でき、より理解しやすいと主張しています。

競合他社よりも速く、より少ないエラーを起こし、MetaはVoiceboxが特定の言語ごとに個別にトレーニングされることなく、1つまたは複数の言語の書かれたテキストを話される言葉に変換できると主張しています。

最先端のモデルであるYourTTSと比較して、Voiceboxは平均の単語エラーレートを10.9%から5.2%に減少させ、音声の類似度を0.335から0.481に増加させたと報告されています。

倫理的・法的な懸念点

ただし、この革新的なツールの倫理的および法的な影響は容易には無視できません。誰でも許可なく他人の声の録音を使用して音声クリップを生成し、その人が何でも言ったかのように主張することができます。

この問題に対処するために、適切な規制や法的な枠組みが必要です。個人の声に関する権利やプライバシーの保護についての議論が重要です。Metaの発表によれば、バイナリ分類モデルが生成された音声を検出できるとされていますが、その精度や実際の運用における信頼性はまだ明確ではありません。

まとめ

声の複製や音声生成の能力は、コンテンツ制作やバーチャルアシスタントなどの領域で革新的な利用が期待されます。特に視覚障がいの人々にとっては、Voiceboxのようなツールは日常生活のさまざまな側面で大きな助けとなる可能性が、あり大いに期待できそうです。

タイトルとURLをコピーしました