テキストからアバター生成のコンテンツ書き込みのベストプラクティス

最終更新日 : 2025年6月27日

テキストからアバター生成機能を使用して、アバターがはっきりと話し、自然に聞こえるようにスクリプトを作成する方法を説明します。

テキストからアバター生成機能を使用する場合、「コンテンツ」フィールドにスクリプトダイアログを追加する際のベストプラクティスに従うことが重要です。このフィールドには、アバターが話す行を入力します。 アバターが正確かつ自然にダイアログを話せるように、スクリプトは適切な構造で明確に記述され、以下に示すベストプラクティスに沿っている必要があります。これにより、機能の効果を最大限に高め、最もリアルなアバターのパフォーマンスを実現できます。

スクリプトダイアログで正しいスペルと文法を維持することで、プロレベルで意図したとおりのアバターのパフォーマンスを実現できます。 適切に記述されたテキストを使用すると、AI アバターはより自然かつ流暢に話すことができるため、最終的に生成される動画で間違えた発音やぎこちない表現が使われるリスクが大幅に軽減されます。 

正しい例

  • これは良い例です。
  • どのような例がありますか?
  • サービスの遅延が原因である可能性があります。

悪い例

  • これはグッドな例です。
  • どんな例がありますか?
  • サービスの遅延のせいである可能性があります。

会話を記述する際に正しい句読点を使用することは、アバターの話し方を示すガイドの役割を果たし、言葉の意味とその伝え方の両方に影響します。読点、句点、およびその他の記号は、発話のリズム、トーン、感情をコントロールするのに役立ちます。注意深く句読点を使用すると、アバターはより自然で表現力豊かで、理解しやすい印象を与えます。

正しい例

  • 食べようおばあちゃん!
  • 次の手順に進みます
  • さあ始めましょう!

悪い例

  • 食べようおばあちゃん!
  • 次の手順に進みます
  • 始めましょう…今すぐ。

ダイアログのテキストが特定の感情をはっきりと表現していない場合は、テキストにキャラクターの演技の説明を追加します。こうすることで、最終的に生成される動画で、アバターがテキストで意図される感情や意味を確実に表現できます。

正しい例

  • 彼は喜んで言った。「それは素晴らしい!」
  • 彼女は微笑んで言った。「新しいトピックへようこそ。」
  • 彼女は厳しく言った。「この方法は避けてください。」

すべて大文字で書かれた単語は、頭字語または頭文字語として扱われ、各文字が別々に発音されることを意味します。ただし、小文字で書かれた同じ単語は、通常の単語として読み上げられます。この違いは、発話の聞こえ方や意図したメッセージの伝わり方に直接影響するため、アバターのダイアログにおいて重要な役割を果たします。 

例えば、「POC」は「ピーオーシー」と発音されますが、「poc」は「ポック」と発音されます。 

正しい例

  • 「AI」は、「エーアイ」として発音されます
  • 「CEO」は「シーイーオー」として発音されます
  • 「USA」は「ユーエスエー」として発音されます

悪い例

  • 「ai」は、「アイ」として発音されます
  • 「ceo」は単一の単語として誤読される可能性があります。
  • 「usa」は、「ウーサ」として発音される可能性があります。

略語を書く場合、特に「s」の文字で終わる略語を書く場合は、各文字の間にダッシュを挿入して、アバターが各文字をはっきりと別々に発音するようにします。これにより、略語が誤読されたり、1 つの単語として読まれたりするのを防ぐことができます。

例えば、「PDF」  は 「ピーディーエフ」<span style="font-size: 0.8125rem;">として発音されます。その他の例として、POCi」は、ピーオーシー」ではなくポシ」として発音されます。意図したとおりに発音されるには、文字の間にダッシュを追加します(「P-O-Ci」など)。

正しい例

  • 「A-P-I-S」は、「エーピーアイエス」として発音されます
  • 「S-D-K-S」は、「エスディーケーエス」として発音されます
  • 「U-I-S」は、「ユーアイエス」として発音されます

悪い例

  • 「APIs」は、「アピース」として発音されます
  • 「SDKs」は、「エスディーケース」として発音されます
  • 「UIs」は、「ユース」または
    「ユーイス」として発音されます

テキストからアバター生成機能のダイアログを記述する場合、特に日付、時刻、価格、単位、金額などについて話す場合は、数字ではなく単語として数を書きます。これにより、アバターがより自然に表現できるようになり、意味がはっきり伝わります。

正しい例

  • 十九てん八五
  • 三百ドル
  • 摂氏四十二度

悪い例

  • 19.84
  • $300
  • 42°C

AI が生成する音声は不確定的で、同一のスクリプトや音声でも毎回わずかに結果が異なる可能性があることを理解してください。例えば、声優が複数回録音をした場合に、毎回わずかに異なるようなものです。