・高性能リアルタイム認識能力---2パス戦略に基づく
・低メモリ要件:32MB~64MB未満
・任意のNを持つN-gramのLMをサポート
・ルールベース文法サポート
・分離された単語認識のための単語リストをサポート
・「ARPA標準形式のLM」と「HTK asciihmm定義形式のAM」をサポート
・各種検索パラメーター設定機能
・DNNベースデコード機能---フレームごとの状態確率計算にフロントエンドモジュールを使用
Julius自体は言語に依存しないデコードプログラムであるため、ターゲット言語に対して、適切な「言語モデル」と「音響モデル」が与えられれば、言語認識機能を作成できます。
モデルには「HTK」「SRILM」などの他の音声(言語)モデリングツールキットに対応するための標準形式が採用されています。
Juliusの認識精度はモデルに大きく依存し、以下のモデルを採用しています。
・HTK ascii形式の音響モデル
・ほぼHTK形式の発音辞書
・ARPA標準形式の単語3グラム言語モデル など
アルゴリズムは、次の主要デコード手法を完全に組み込んだ「2パスツリートレリス検索」に基づいています。
・ツリー編成レキシコン
・1-ベスト/ワードペアコンテキスト近似
・ランク/スコアプルーニング
・N-グラムファクタリング
・クロスワードコンテキスト など
日本語ディクテーションキットが用意されています。
・日本語モデル---バランスの取れたコーパスでトレーニングされた60kワード
・音響モデル---トライフォンGMM/DNN
ユーザー提供の英語モデルがいくつかWebで入手できます。
Juliusは、モデル構造から独立するようにモジュール化されており、さまざまなHMM構造がサポートされています。
・エンベロープビーム検索
・ガウス剪定
・ガウス選択
・共有状態トライフォン
・結合混合モデル など
Juliusは、以下の処理を1つのスレッドで同時に実行することもできます。
・マルチインスタンス認識
・ディクテーション実行
・文法ベース認識
・孤立した単語認識 など
OSS×Cloud ACCESS RANKING