BERTは、高い精度の結果を作成でき、11の自然言語処理タスクで最先端の結果を得られます。
・GLUEスコア:80.5%---7.7%改善
・MultiNLI精度:86.7%---4.6%改善
・質問応答テストF1:93.2ポイント---1.5ポイント改善
・SQuADv2.0テストF1:83.1ポイント---5.1ポイント改善
BERTは、ディープニューラルネットワークの最下部から開始し、対象箇所の左側と右側の両方のコンテキストを使用する「ディープ双方向アプローチ」を採用しています。
入力内の単語の15%をマスクし、シーケンス全体をディープ双方向変成器エンコーダーで実行してから、マスクされた単語のみを予測します。
次に、大きなコーパス(Wikipedia+BookCorpus)で、モデル(12層から24層の変成器)を長時間トレーニングします。
事前トレーニングには、「4〜16のクラウドTPUで4日間ほど」のコストがかかりますが、言語ごとに1回限りの手順です。
事前トレーニングモデルがリリースされています。
ほとんどのNLP研究者は、独自モデルを最初から事前トレーニングする必要はありません。
微調整プロセスは短時間で完了できます。
「単一クラウドTPUで1時間ほど」もしくは「GPUで数時間ほど」で終了します。
例えば、SQuAD(スタンフォード質問応答データセット)の場合、単一クラウドTPUにおいて約30分でトレーニングでき、91.0%のDevF1スコアを達成できます。
参考元サイト
※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。
OSS×Cloud ACCESS RANKING