オープンソースのJuliusとは

主な特徴

・高性能リアルタイム認識能力---2パス戦略に基づく
・低メモリ要件：32MB～64MB未満
・任意のNを持つN-gramのLMをサポート
・ルールベース文法サポート
・分離された単語認識のための単語リストをサポート
・「ARPA標準形式のLM」と「HTK asciihmm定義形式のAM」をサポート
・各種検索パラメーター設定機能
・DNNベースデコード機能---フレームごとの状態確率計算にフロントエンドモジュールを使用

言語認識モデル

Julius自体は言語に依存しないデコードプログラムであるため、ターゲット言語に対して、適切な「言語モデル」と「音響モデル」が与えられれば、言語認識機能を作成できます。

■モデル形式

モデルには「HTK」「SRILM」などの他の音声(言語)モデリングツールキットに対応するための標準形式が採用されています。

■認識精度

Juliusの認識精度はモデルに大きく依存し、以下のモデルを採用しています。

・HTK ascii形式の音響モデル
・ほぼHTK形式の発音辞書
・ARPA標準形式の単語3グラム言語モデル　など

■2パスツリートレリス検索

アルゴリズムは、次の主要デコード手法を完全に組み込んだ「2パスツリートレリス検索」に基づいています。

・ツリー編成レキシコン
・1-ベスト/ワードペアコンテキスト近似
・ランク/スコアプルーニング
・N-グラムファクタリング
・クロスワードコンテキスト　など

■日本語モデル

日本語ディクテーションキットが用意されています。

・日本語モデル---バランスの取れたコーパスでトレーニングされた60kワード
・音響モデル---トライフォンGMM/DNN

■英語モデル

ユーザー提供の英語モデルがいくつかWebで入手できます。

JuliusModels

→github.com　→palles77/julius

VoxForgeプロジェクト

→voxforge.org

モジュール化構造

Juliusは、モデル構造から独立するようにモジュール化されており、さまざまなHMM構造がサポートされています。

・エンベロープビーム検索
・ガウス剪定
・ガウス選択
・共有状態トライフォン
・結合混合モデル　など

スレッド同時実行

Juliusは、以下の処理を1つのスレッドで同時に実行することもできます。

・マルチインスタンス認識
・ディクテーション実行
・文法ベース認識
・孤立した単語認識　など

参考元サイト
→github.com　→julius-speech/julius

「Julius」の主な特徴

「Julius」の主な特徴として、「主な特徴」「言語認識モデル」「モジュール化構造」「スレッド同時実行」について紹介。