概要
Amazon Pollyとは、テキストをリアルな音声に変換するAWSのサービスです。フルマネージド型の「Text-to-speech」機能を提供します。
基本情報
プラットフォーム | AWS |
クラウドサービス名 | Amazon Polly |
読み方 | アマゾン ポリー |
略称 | --- |
基本説明
Amazon Pollyは、高度な深層学習テクノロジーを使用する「Amazon AIサービス」の1つです。
テキストから音声を合成して、会話機能を搭載するアプリケーションを作成できます。
経緯
2016年12月に発表されました。
主な特徴
対応言語(音声パターン)
Amazon Pollyは、「24以上の言語」と「47以上の音声パターン」をサポートします。
日本語、英語、フランス語、ドイツ語などの多くの主要な言語に対応します。
→AWS →Amazon Polly →Amazon Polly 製品の詳細 →さまざまな音声と言語を選択可能
リアルタイム性
Amazon Pollyは、短い応答時間での処理が可能であるため、リアルタイム対話を実現できます。
流暢な発音
Amazon Pollyは、クラス最高のテキスト読み上げ技術により、自然な音声を合成します。
略語、頭字語展開、同形異義語などにも対応できます。
音声データの保存と再利用
Amazon Pollyが生成した音声データは保存と再利用が可能です。
追加料金なしで無制限に再利用できます。
オーディオ形式
オーディオ形式として「MP3」「Vorbis」「raw PCM」を選択できます。
さまざまなサンプリングレート選択も可能です。
音声調整(カスタム辞書)
XMLベース音声合成マークアップ言語(SSML:Speech Sythesis Markup Language)を使用して、「発音」「ボリューム」「ピッチ」「速度」など、細かい調整が可能です。
シンプルAPI
Amazon PollyのAPIを使用すれば、さまざまなアプリケーション(Webサイト、モバイルアプリケーション、各種デバイスなど)に音声合成機能を簡単に統合できます。
テキストをAPI経由で送信すると、Pollyからアプリケーションにオーディオストリームが返信されます。「直接ストリーミング再生」や「音声ファイル形式での保存」などを行えます。
プラットフォームとプログラミング言語のサポート
Amazon Pollyは、以下のプラットフォーム/言語をサポートしています。
・Java
・Node.js
・.NET
・PHP
・Python
・Ruby
・Go
・C++
・AWS Mobile SDK(iOS、Android) など
ユースケース
次のようなユースケースが考えられています。
・各種アプリケーションへの音声サポート機能追加
・ビデオ/プレゼンテーションなどのコンテンツ作成
・カスタマーコンタクトセンターでの自動応答
・IoTデバイス用音声インタフェース
・言語学習用教材
・視覚障害者向けサポート機能 など
同様サービス
同様なサービスとして、次のようなものがあります。
Azure「Bing Speech API」など
導入事例
オフィシャルサイトで導入事例が紹介されています。
→AWS →Amazon Polly Customers
参考元サイト
・AWS →Amazon Polly
・AWS →Amazon Polly →Amazon Polly 製品の詳細
・AWS →Amazon Web Services ブログ →Amazon Polly – 文章から音声へ、47の声と24の言語
・AWS →Amazon Polly →よくある質問
・AWS →Amazon Polly →Developer Guide →Amazon Polly とは?
・Qiita →Amazon AI pollyを使ってみた
※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。