2025年6月25日

#生成AI

エグゼクティブのための生成AI講座その５　ー作ってみよう、Podcast編（後編）ー

SBI金融経済研究所研究主幹

副島豊

Hands onこそAI強者への早道

　作ってみよう、Podcast編の後編です。前編を読まれた方、以下を読む前に（読んでからでもよいのですが）Hands onで実際に手を動かして作ってみる体験をしてほしい。NotebookLMは誰でも無料で利用でき、ダウンロードから10分程度の作業で音声概要を作成できる。ブラウザ画面に出てくるボタンのワンプッシュで、指定したレポートやwebサイトのページ、YouTubeを材料にPodcastが簡単に作成できる。NotebookLMは音声概要と呼称しているが、二人の男女の掛け合いで音声紹介が提供されるこの機能はPodcast作成そのものである。

　Googleは4月末にNotebookLMの大型アップデイトを行った。その追加機能の一つに、音声概要機能の多言語化がある。前編公表の4月10日時点では英語版のみ作成可であったが、日本語を含む50か国語に対応できるよう進化した。内容紹介文の作成能力はもともと優れていたが、多言語対応TTS（Text-to-Speech）によって極めて自然な日本語会話が生成可能となった。難しい漢字の読み違いは偶にあるものの、淀みない音声会話は殆どラジオ番組と区別がつかない。それまでの海外製TTSは日本語が得意な外国人の会話風であったため、大きなステップアップとなった。その品質をまずはHands onで体験してほしい。読むより試すがAI強者への早道である。

（以下、Hand-onの時間。まずNotebookLMのGoogle検索から。）

（音声概要機能を体験し終えたら先に進む。）

言葉や声という古くて新しいインターフェイス

　生成AIによる要約と音声化技術の進歩は、「資料は読むから聞く時代へ」という転換をもたらしている。外国語に限らず日本語であっても長文の資料は、まずは音声概要機能で耳から大筋を頭に入れ、ワンクリックでブリーフィングノートを作成して全体の内容を読み取り、深く理解したい箇所は画面のチャット欄から質問を投げかける。これで効率的に内容理解を進めることができる。詳細を読み解く必要があれば、この作業の後で行えばよい。気になった内容が資料のどこに書いてあるかも示してくれる。

　このような調べる理解するという作業以外でも、生成AIの活用が活発化している。マーケティングや顧客対応、各種コミュニケーションが典型例である。広告や様々なメディア（含む映画）の作成、コーポレイト・キャラクターやファッションモデルのAI運用、ネットでのアバターによるコミュニケーションなどである。解説系のYouTube番組では、ナレーターのビジュアルと音声を含めて、キャラクター化、いわゆるVTuber化が進んでいる。

　また、画像や音の強刺激メディアや煽情型のメディアに対する嫌気もあり、音声ライブ配信やパーソナルラジオへの回帰や、Podcastの流行も生じている。情報処理において視覚系の入力は効率的であるが、落ち着いて考えたり、あくせく情報処理を行う必要がない日常生活のシーンでは、人の声という柔らかなインターフェイスが見直されている。

　生成AIがもたらした技術革新の一つは、コンピュータへの命令が言葉でできるようになった点である。STT（Speech-to-Text）の性能向上により、タイピングでなく音声で指示することが可能になった。これまでは、表計算やワープロといった汎用ソフトをマウスやキーボードで操作していたし、ある特化したタスクを行いたければプログラムを組んだり、アプリケーションを作成する必要があった。言葉でタスクを依頼する行為は、人間どうしでしか通じあえないものであった。これがAIに対して実行できるようになり、AIエージェント（タスク実行の代理人）が今年の生成AIのホットイシューとなっている（例えば上田(2025)を参照）。

今回のテーマ：より自由度を高く

　前編ではPodcastの4つの作成法を例示し、１）NotebookLMのようなWebアプリで簡便に作成する方法と、２）Difyのようなノーコード開発ツールを使う方法を紹介した。今回の後編では、３）Pythonで作成されたオープンソースコードを用いて作成する方法と、４）スクリプト作成後に編集作業を行い、これをTTSで音声化する２ステップ型の作成方法を紹介する。いずれも、プログラミング言語からAPIでLLM（大規模言語モデル）に指示を送ってスクリプト作成を行わせ、LLMの特化型機能として提供されるTTSを利用して音声化を行うものである。

　NotebookLMではスクリプト作成と音声化をまとめて自動的に行うため、途中で人間が介在してスクリプトを編集することができない。また、前述した5月の大型アップデイトまでは、スクリプト作成の細かい指示（スクリプトの長さや作成方針・構成、ナレーターの人数や役割分担など）や、音声化に際しての設定（声の選択や、カジュアルトークかオフィシャルな会話かといった指定など）ができなかった。アップデイトによってプロンプト指示が可能になり、ある程度の調整ができるようになったが、「音声概要作成」という名前が示す通り、そもそもPodcast作成用ではないため細かな調整はできない。

　これに対して、スクリプト作成と音声化を完全に分離すると、Human-in-the-loop、すなわち作業途中で人間が介在し、編集調整を行うことが可能となる。以下では、最初に一気に作成する方法を、次に２ステップに分けて作成する方法を紹介する。

オープンソースコードを使ってみた

　まず、GitHubで公開されているPythonコード（Podcastify）を用いてみた。Apache license2.0に沿ってオープンソースコードとして提供されている。サンプル題材は前編同様、筆者のレポート「渡来銭と暗号通貨」（2023年6月公表、5,000文字程度）を用い、比較できるようにしている。なお、Difyのようなノーコードツールとは異なり、Python言語によるコーディングへの慣れがないと実装が難しい。本稿では実装の解説は省略しているが、コードやパッケージ全体を通して読み、必要な箇所を修正したり、ライブラリの読み込みなどプログラムを動かす環境を整えるスキルが必要となる。

　Podcastの品質は、脚本のスクリプトの出来とTTSの音声化技術に依存する。前者は、利用するLLMの性能と的確な作成指示を与える能力に左右される。後者はTTSの性能により強く依存するが、口調などのプロンプト指示も質の改善に貢献する。Podcastify (ver0.4)では、デフォルトとしてLLMにGemini 1.5Pro、TTSにOpenAIのtts-1-hdという古いモデル（本年3月に新しいTTS、gpt-4o-mini-ttsがリリースされている）が設定されており、最新モデルとの比較のためそのまま利用した。LLMやTTSは変更可能であり、いくつかのオプションが用意されている。

　脚本スクリプトの作成には図1のようなプロンプトが用意されている。Podcastの名前や作成言語、会話の雰囲気や組み立て方、話者2名の役割、与えた資料への忠実度（creativity）、Podcastの名前などを「言葉で」指定するコードが用意されている。LLMへのプロンプト指示であるため、選択されたオプションから選ぶのではなく、作成者が自由に指定できる。様々な指定を試すことでLLMの指示対応力を検証することができる。これらのプロンプトを適宜変更することで日本語のPodcastを作成できる。また、図1のプロンプトとは別途、番組の長さを指定するオプションも用意されている。なお、LLMの利用にはPythonコードにAPI-keyを埋め込んでおく必要があり、GeminiとOpenAIのAPI-keyを各々取得している。

　作成物を視聴したところ、英語番組の音声が流暢である一方、日本語番組では外国人が話しているようなアクセントとなっていた。また、漢字の読み間違いや、会話が乱れる箇所もあった。これは、提供されているTTSが英語の話者を前提としたものであるのに対し、無理やり日本語を話させているためだと推測される。Transformerモデルの登場でLLMが勃興したが、これ以前の言語モデルは日本語文章の作成性能が低かった。しかし、ChatGPT（GPT-3.5がベース）が登場するころから、日本語文章の生成能力が急激に上昇していった。LLMの学習データの「比率」においては、その多くが英語であって、日本語や多言語のシェアはわずかであるにも関わらず、新型のLLMはその言語生成能力を多言語において向上させていった。現在、同様な現象がTTSにおいても進行しており、後出のGoogleの最新モデルでは英語話者を選択したとしても、流暢かつプロンプト指示にそった自然な抑揚をつけた日本語音声が作成される。少なくとも筆者の日本語読み上げ能力を遥かに上回っている。

図１　脚本作成に用いるプロンプト（初期設定）

出所） Podcastify ver0.4

進化する音声合成技術

　次に、２ステップ型での作成法を紹介する。前編の最後では、OpenAIが3月下旬にリリースした最新のTTS（gpt-4o-mini-tts）を用いた作成法を紹介するとしていたが、Googleが５月のイベントGoogle I/OでリリースしたTTSではさらに日本語性能の向上が著しかったため、こちらも合わせて紹介する。なお、サービス名やインターフェイスなどは、文字どおり日々進化しているため、本レポートに限らず、あらゆる情報が急速に劣化していく点に注意が必要である。このレポートが公表された時には、すでに画面イメージが異なっていたということも十分ありうる。体感的には「四半期ひと昔」が生成AIの発展速度である。

　図２はOpenAIのgpt-4o-mini-ttsが簡単に試せるデモ用の画面である。Voiceの欄では、男女複数の話者が用意されている。左下のVibe（雰囲気）の設定にも様々なオプションがあり、同一話者であっても会話の雰囲気を調整することができる。図２では、Echoという男性ボイスに「チルなサーファーのバイブス」で音声合成を行なわせる設定となっている。読み上げさせる内容を右下のボックスに張り付ければよく、日本語を入力してもかなり流暢に音声化してくれる。

図２　OpenAIの最新TTSのデモ画面

出所） https://www.openai.fm/　2025年6月時点。

　左下に隠れているエリアにはVibe設定の本体である具体的な言葉によるプロンプト指示が書かれている（スクロールすると表示される）。ここを書き換えれば、自由に口調設定を変更できる。画面のVibe欄には、スポーツコーチ風や、誠実さ口調、共感寄り添い風などが見えており、グレーの回転（変更）ボタンを押せば様々なサンプル例がプロンプト設定や読み上げサンプル文とセットで示されるため、プロンプトの書き方の参考にもなる。「チルなサーファー」の口調設定は以下のようになっている。この英語の指示はスクリプトを日本語にしても機能する。LLMが多言語を理解できるためである。

Voice: Laid-back, mellow, and effortlessly cool, like a surfer who's never in a rush.
Tone: Relaxed and reassuring, keeping things light even when the customer is frustrated.
Speech Mannerisms: Uses casual, friendly phrasing with surfer slang like dude, gnarly, and boom to keep the conversation chill.
Pronunciation: Soft and drawn-out, with slightly stretched vowels and a naturally wavy rhythm in speech.
Tempo: Slow and easygoing, with a natural flow that never feels rushed, creating a calming effect.

　図２の右上のスライドボタンを動かすと、Pythonコードでgpt-4o-mini-ttsを動かす場合のサンプルが示される。図3がその画面イメージであり、この機能もコードの書き方を学ぶ助けになる。コード中の”input”に音声化する文章が、”instructions”にプロンプトが入力されており、ここを書き換えればよい。

図３　Pythonコードの表示

　次の図４は、Google AI Studioの一部として提供されているTTSで、Generate MediaのメニューのGenerate speechを選択すると図の内容が表示される。図の出所にあるリンク先からアクセスできる。

　以下に利用法を示す。①前編で自動作成した脚本スクリプトをHuman-in-the-loopによって編集したファイルを用意しており、これを左の文中リンク先からダウンロードしたうえでRaw structureの欄に張り付ける。中央のScript builderは自動で作成されるが、スクリプトにある「話者名:」の設定を正しく行わないと作成が上手くいかない。なお、初期設定として出てくるサンプルスクリプトは最初に削除しておく。②右側欄上方でMulti-speaker audioを選択し、スクリプトに示された話者、ここではケンとミカをSpeaker settingの欄２つに指定し、適宜の音声（図ではケンがCharon）を指定する。話者名がスクリプトと同一でないと中央上部にベージュ色のバーで警告が表示される。③Runボタン押下で音声ファイルが数分で作成される。実行ボタン▷で音声が視聴でき、⁝ボタンでダウンロードすることもできる。なお、音声ファイルの利用に関しては、Googleのterm referenceに従う必要があるほか、元資料やスクリプトの著作権や利用権にも配慮が必要である。

　前述のようにテスト用のテキストファイルを準備したので、是非Hands-onしてみてほしい。抑揚が効いた流暢な男女の日本語会話を作成することができる。ただし、分量が多いので、GoogleのAIサービスの有料契約をしていないと作成に失敗する。スクリプトを冒頭の箇所に限定することで無料枠でも作成可能となる。また、自分で作成したスクリプトやLLMに作成させた会話の音声化も試してみるとよい。比較的新しいLLMに元になる資料をアップし、内容を紹介するPodcast風の会話スクリプトを作成するよう指示し、その際、フォーマット（話者名:発言で改行）を指定しておくと、そのままGoogle AI Studioに流し込める。

　読むより試すがAI強者への早道である。なにはともあれ、図の出所にあるリンクをクリックしてみよう。

図４　Google AI Studioでの音声作成

出所）https://aistudio.google.com/generate-speech/ にスクリプトを張り付けて話者設定を行ったもの。
2025年6月時点。

レポート一覧

エグゼクティブのための生成AI講座 その５ ー作ってみよう、Podcast編（後編）ー