ざっくりわかる「機械学習」---第5回 プログラミング言語「Python」が機械学習に向いている理由 | 第一線で活躍するオープンソースエキスパートが綴るスペシャルコラム。

ざっくりわかる「機械学習」---第5回 プログラミング言語「Python」が機械学習に向いている理由

ざっくりわかる「機械学習」シリーズ。第5回は『プログラミング言語「Python」が機械学習に向いている理由』です。

[2016年12月21日 ]

ざっくりわかる「機械学習」シリーズ。
→目次ページ

第5回は『プログラミング言語「Python」が機械学習に向いている理由』です。

プログラミング言語「Python」は、主要な機械学習向け言語です。「なぜPythonが機械学習に向いているのか?」について紹介します。

Pythonとは

概要

Pythonの概要については、こちらを参照ください。
→OSS×Cloud News →Pythonとは

主な特徴

・汎用高水準プログラミング言語
・シンプルで可読性に優れている
・大規模な標準ライブラリを提供
 →フレームワークのように使える

Pythonが機械学習に向いている理由

Pythonは「理工学系/統計解析系/科学演算系/機械学習向けのライブラリが充実」していることにより、機械学習でのメインとなるプログラミング言語として利用されています。

Pythonの機械学習向けライブラリ(ツール)

Pythonで機械学習プログラミングを行う場合に使える主なライブラリ(ツール)を紹介します。

非常に多くのライブラリ(ツール)が用意されていますが、特に人気が高いライブラリについて紹介します。

大規模データ処理ライブラリ「Pandas」

Pandasは、高速に大規模データを処理できるライブラリです。機械学習処理においては、主に、前処理工程で使用されます。

ポイント
・各種データフォーマットを高速に読み込む
・高速なデータ加工
・SQLライクに処理できる
・高速Group-byエンジンで集合関数を使える

数値計算ライブラリ「Numpy」+「Scipy」

「Numpy」のポイント
・数値計算の基盤機能
・「配列」「ベクトル」「行列」「線形代数」「数学関数」などの各種計算機能

「Scipy」のポイント
・科学技術計算で必要となる機能
・「疎行列」「積分」「補間」「統計処理」「フーリエ変換」「信号処理」「数値最適化」「線形代数」「確率統計」などの各種計算機能

自然言語処理ライブラリ「Gensim」

テキスト処理のツールを提供します。トピックモデルに特化している点が特徴です。
・TF-IDF(Term Frequency-Inverse Document Frequency)
・LSA(Latent Semantic Analysis)
・LDA(Linear Discriminant Analysis)
・word2vec など

描画ライブラリ「Matplotlib」

「Matplotlib」はグラフ描画のためのライブラリです。

「散布図」「ヒストグラム」「折れ線グラフ」「棒グラフ」「円グラフ」などの各種グラフを描きます。3次元グラフも描けます。

Pythonの機械学習ライブラリ

Pythonのライブラリとして使える主要な機械学習ライブラリです。

機械学習ライブラリ「Scikit-learn」

「Scikit-learn」は、Pythonの標準的な機械学習ライブラリです。

主要な機械学習アルゴリズムが実装されています。「教師あり学習」「教師なし学習」を手軽に試せます。

ディープラーニング用ライブラリ「TensorFlow」

「TensorFlow」は、Googleが開発したディープラーニング用ライブラリです。
→OSS×Cloud News →TensorFlowとは

ディープラーニング用ライブラリ「Caffe」

「Caffe」は代表的なPython向けディープラーニングライブラリです。
→OSS×Cloud News →Caffeとは

ディープラーニング用ライブラリ「Theano」

「Theano」は、ディープラーニング機能の他に、「行列演算」「自動微分」「実行時Cコード生成コンパイル」「GPU処理」などの機能も搭載しています。

ざっくりわかる「機械学習」シリーズ。
→目次ページへ

OSSNEWSに広告を掲載しませんか?

著者プロフィール

オープンソース活用研究所 所長 寺田雄一

1993年、株式会社野村総合研究所(NRI)入社。
インフラ系エンジニア、ITアーキテクトとして、証券会社基幹系システム、証券オンライントレードシステム、損保代理店システム、大手流通業基幹系システムなど、大規模システムのアーキテクチャ設計、基盤構築に従事。
2003年、NRI社内に、オープンソースの専門組織の設立を企画、10月に日本初となるオープンソース・ソリューションセンター設立。
2006年、社内ベンチャー制度にて、オープンソース・ワンストップサービス 「OpenStandia(オープンスタンディア)」事業を開始。オープンソースを活用した、企業情報ポータル、情報分析、シングルサインオン、統合ID管理、ドキュメント管理、統合業務システム(ERP)などの事業を次々と展開。
オープンソースビジネス推進協議会(OBCI),OpenAMコンソーシアムなどの業界団体も設立。同会の理事、会長や、NPO法人日本ADempiereの理事などを歴任。
2013年、NRIを退社し、株式会社オープンソース活用研究所を設立。

最新TOPICS

【PICKUP】「字幕やロゴの挿入などの動画編集を全部自動でやるスクリプト」を作成する方法---オープンソース動画/音声エディタ「FFmpeg」+テキスト書き起こしサービス「IBM Watson speech to Text」(2017年12月16日 20:03)

オープンソース動画/音声エディタ「FFmpeg」+テキスト書き起こしサービス「IBM Watson speech to Text」を利用して、「字幕やロゴの挿入などの動画編集を全部自動でやるスクリプト」を作成する方法について紹介。 【FFmpeg とは】 ・オープンソース(LGPL 2.1) ・動画/音声の記録、変換、再生に関する機能群の総称 ・フィルターを組み合わせることで多彩な表現...

関連オープンソース

Pylearn2(パイラーンツー)

  • AI・人工知能

Pylearn2(パイラーンツー)とは、数値計算ライブラリ「Theano」ベースのオープンソースディープラーニングライブラリです。

scikit-learn(サイキットラーン)

  • AI・人工知能

scikit-learn(サイキットラーン)とは、Pythonのオープンソース機械学習ライブラリです。機能が充実している高品質ライブラリです。

MXNet(エムエックスネット)

  • AI・人工知能

MXNet(エムエックスネット)とは、「効率」と「柔軟性」を両立したディープラーニングフレームワークです。AWSが公式サポートを表明したことで大きな注目を集めています。

Theano(テアノ)

  • AI・人工知能

Theano(テアノ)とは、Python用数値計算ライブラリです。多次元配列を効率的に使用する数式について定義/最適化/評価でき、ディープラーニング計算処理によく利用されます。

DSSTNE(デスティニー)

  • AI・人工知能

DSSTNE(デスティニー)。ディープラーニングライブラリです。Amazonがオープンソース公開したもので、スパース(疎)データに強いという特徴があります。

Caffe(カフェ)

  • AI・人工知能

Caffe(カフェ)。オープンソースのディープラーニングライブラリです。画像認識に特化しており、高速処理が可能です。

Chainer(チェイナー)

  • AI・人工知能

Chainer(チェイナー)。日本製の深層学習フレームワークです。ニューラルネットワークをPythonで柔軟に記述し、学習させることができます。

TensorFlow(テンソルフロー)

  • AI・人工知能

TensorFlow(テンソルフロー)。Googleの機械学習/ディープラーニング/多層ニューラルネットワークライブラリです。データフローグラフを使用したライブラリで、複雑なネットワークを分かりやすく記述できます。

Microsoft Cognitive Toolkit(マイクロソフトコグニティブツールキット)

  • AI・人工知能

Microsoft Cognitive Toolkit(マイクロソフトコグニティブツールキット)。AI技術を利用したディープラーニング(深層学習)ツールキットです。旧称「CNTK」から改名されました。

関連記事

無料資料プレゼント

AI技術の方向性と企業の活用シナリオ

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



  • 20171130-netapp サイド

facebook

twitter