ざっくりわかる「機械学習」---目次 | 第一線で活躍するオープンソースエキスパートが綴るスペシャルコラム。

ざっくりわかる「機械学習」---目次

「ざっくりわかる『機械学習』」全5回シリーズとして、機械学習について紹介します。

[2016年12月21日 ]

「ざっくりわかる『機械学習』」全5回シリーズとして、機械学習について紹介します。

ざっくりわかる『機械学習』 目次

第1回 機械学習とは(入門編)

・機械学習とは
  ・ざっくりまとめると・・・
・自律的洞察
・近年の発展
  ・考えられる主な要因
・機械学習が注目されている理由
  ・考えられる主な要因
・主な機械学習の手法
  ・(1)教師あり学習
  ・(2)教師なし学習
  ・(3)半教師あり学習

第2回 「機械学習」「ディープラーニング」の違い

・「1.人工知能(AI)」「2.機械学習」「3.ニューラルネットワーク」「4.ディープラーニング」の包括的関係
  ・包括的関係
・「2.機械学習」とは
・「3.ニューラルネットワーク」とは
・「4.ディープラーニング」とは
  ・「4.ディープラーニング」と「3.ニューラルネットワーク」の違い
  ・「4.ディープラーニング」の優位点は「いちいち人間が関与しない自動化」
・「ディープラーニング」の能力
・「ディープラーニング」の可能性

第3回 機械学習事例紹介~機械学習で何ができる?

・「金融」分野
  ・クレジットカード不正検知
  ・株式取引
  ・汚職兆候検知
・「製造」分野
  ・機器故障事前予知
・「医療」分野
  ・医療診断
  ・Watsonが人命を救った事例
・「マーケティング」分野
  ・商品レコメンデーション
  ・顧客セグメンテーション
・「ユーザコミュニケーション」「その他」分野
  ・数字認識
  ・形状検出
  ・会話理解
  ・顔検出
  ・スパム検知
  ・音声個人認証

第4回 主要な機械学習フレームワーク(ライブラリ)

1.TensorFlow
2.Microsoft Cognitive Toolkit
3.DSSTNE
4.Caffe
5.Chainer

第5回 プログラミング言語「Python」が機械学習に向いている理由

・Pythonとは
  ・概要
  ・主な特徴
  ・Pythonが機械学習に向いている理由
・Pythonの機械学習向けライブラリ(ツール)
  ・大規模データ処理ライブラリ「Pandas」
  ・数値計算ライブラリ「Numpy」+「Scipy」
  ・自然言語処理ライブラリ「Gensim」
  ・描画ライブラリ「Matplotlib」
・Pythonの機械学習ライブラリ
  ・機械学習ライブラリ「Scikit-learn」
  ・ディープラーニング用ライブラリ「TensorFlow」
  ・ディープラーニング用ライブラリ「Caffe」
  ・ディープラーニング用ライブラリ「Theano」

OSSNEWSに広告を掲載しませんか?

著者プロフィール

オープンソース活用研究所 所長 寺田雄一

1993年、株式会社野村総合研究所(NRI)入社。
インフラ系エンジニア、ITアーキテクトとして、証券会社基幹系システム、証券オンライントレードシステム、損保代理店システム、大手流通業基幹系システムなど、大規模システムのアーキテクチャ設計、基盤構築に従事。
2003年、NRI社内に、オープンソースの専門組織の設立を企画、10月に日本初となるオープンソース・ソリューションセンター設立。
2006年、社内ベンチャー制度にて、オープンソース・ワンストップサービス 「OpenStandia(オープンスタンディア)」事業を開始。オープンソースを活用した、企業情報ポータル、情報分析、シングルサインオン、統合ID管理、ドキュメント管理、統合業務システム(ERP)などの事業を次々と展開。
オープンソースビジネス推進協議会(OBCI),OpenAMコンソーシアムなどの業界団体も設立。同会の理事、会長や、NPO法人日本ADempiereの理事などを歴任。
2013年、NRIを退社し、株式会社オープンソース活用研究所を設立。

最新TOPICS

【講演資料を公開】3/5 「企業のデータ活用に立ちはだかる「3つの壁」 ~どの壁で止まっているのか、自社のポジションを判定し、壁を乗り越えるためのワークショップ~」(2020年04月05日 09:00)

2020-03-05(木)14:30 - 16:00 Webセミナーにて 「企業のデータ活用に立ちはだかる「3つの壁」 ~どの壁で止まっているのか、自社のポジションを判定し、壁を乗り越えるためのワークショップ~」 と題するセミナーを開催致しました。 一方通行になりがちなWebセミナーですが、ご参加頂いたゲストの方は途中退席する事なく最後までご聴講頂きました。セミナー後に取るアンケ...

関連オープンソース

Jaspersoft(ジャスパーソフト)

  • BIツール

Jaspersoft(ジャスパーソフト)とは、世界で幅広く利用されているオープンソースのビジネスインテリジェンス(BI)ソフトウエアであり、高機能なレポーティングツールです。PDFやHTMLなどさまざまな出力形式の帳票を作成でき、Webまたはモバイルアプリケーションに組み込める分析機能なども提供します。

Apache Solr(アパッチソーラー)

  • 検索エンジン

Apache Solr(アパッチソーラー)は、Javaベースのオープンソース全文検索エンジンです。基本的には「ローカルにある文書ファイルの中からキーワードを含む文書を検索する」機能を提供します。他のシステムやツールと組み合わせることで、GoogleのようなWeb検索も実行できます。

Jupyter Notebook(ジュピターノートブック)

  • ビッグデータ処理ツール

Jupyter Notebook(ジュピターノートブック)とは、インタラクティブコンピューティング用Webベースノートブック環境です。ノートブック形式で段階的にプログラムを実行し、データ分析作業を行える対話型ブラウザ実行環境として利用できます。

Pentaho(ペンタホ)

  • BIツール

Pentaho(ペンタホ)とは、BI(Business Intelligence)に必要なすべての機能が用意されているプロフェッショナル向けのオープンソースBIスイート製品です。「ETL」「OLAP」「クエリ」「レポーティング」「インタラクティブ分析」「ダッシュボード」「データマイニング」など、データ統合から分析までを一貫して実施できます。

RapidMiner Studio(ラピッドマイナースタジオ)

  • BIツール

RapidMiner Studio(ラピッドマイナースタジオ)とは、ビジュアルデータサイエンスワークフローデザイナーです。「機械学習」「データマイニング」「テキストマイニング」「特徴選択」「予測分析」などのさまざまなデータ分析処理をプログラミングなしで実施できます。

scikit-learn(サイキットラーン)

  • AI・人工知能

scikit-learn(サイキットラーン)とは、Pythonのオープンソース機械学習ライブラリです。機械学習アルゴリズムを幅広くサポートしており、「分類回帰クラスタ分析」「ニューラルネットワーク」「サポートベクターマシン」「ランダムフォレスト」「k近傍法」などを手軽に実装できます。

Enigma(エニグマ)

  • FinTech系ツール

Enigma(エニグマ)とはブロックチェーンタイプの分散型計算プロトコルです。「シークレットコントラクト」を可能にする分散ネットワーク構築が可能で、Enigmaネットワーク内の「シークレットノード」が暗号化データに対して安全に計算を実行できます。

Elasticsearch(エラスティックサーチ)

  • 検索エンジン

Elasticsearch(エラスティックサーチ)とは、全文検索エンジンです。マルチテナント、スキーマレスでクラウドに最適化されています。HTTP WebインターフェースとスキーマフリーのJSONドキュメントを備えており、さまざまなユースケースに対応できる分散型RESTful検索が可能です。

Kibana(キバナ)

  • BIツール

Kibana(キバナ)とは、全文検索エンジン「Elasticsearch」と連携して使用するデータ解析/可視化プラットフォームです。データ分析および検索ダッシュボードで、全文検索エンジン「Elasticsearch」用のオープンソースのデータ視覚化プラグインとして機能します。

Chainer(チェイナー)

  • AI・人工知能

Chainer(チェイナー)とは、日本製の深層学習フレームワークです。ニューラルネットワークを誤差伝播で学習するライブラリで、Pythonで柔軟に記述し学習させることができます。特徴として「柔軟性」「直感的」「高機能」の3つを掲げています。

Apache Kafka(アパッチ カフカ)

  • ビッグデータ処理ツール

Apache Kafka(アパッチ カフカ)とは、分散ストリーミングプラットフォームです。「Pull型」「高スループット」などの特徴があり、ストリーミングデータパイプライン構築に利用できます。分散環境において「高スループット」かつ「低レイテンシ」で、大規模データを高速に取り込み配信できるメッセージングシステムです。

Caffe(カフェ)

  • AI・人工知能

Caffe(カフェ)とは、オープンソースのディープラーニングライブラリです。画像認識に特化しており、「高速動作」「GPU対応」「洗練されたアーキテクチャ/ソースコード」「開発コミュニティが活発」などの特徴があります。C++/Python/MATLABなどで使用できます。

Apache Hadoop(アパッチハドゥープ)

  • ビッグデータ処理ツール

Apache Hadoop(アパッチハドゥープ)とは、オープンソース大規模データ分散処理フレームワークです。「データ処理基盤」と「分散コンピューティング基盤」という2つの特徴を持つフレームワークとして大規模データを効率的に分散処理および管理できます。

Orange(オレンジ)

  • BIツール

Orange(オレンジ)とはデータマイニングソフトウェアです。初心者から専門家までのニーズに対応できる対話型データ分析ワークフローとして利用できます。「探索的なデータ分析」と「対話的なデータ視覚化」のためのビジュアルプログラミングフロントエンドを特徴としています。

TensorFlow(テンソルフロー)

  • AI・人工知能

TensorFlow(テンソルフロー)とは、Googleの機械学習/ディープラーニング/多層ニューラルネットワークライブラリです。データフローグラフを使用したライブラリで複雑なネットワークを分かりやすく記述できます。高い汎用性により研究レベルから実プロダクトにまで活用できます。

NGT(エヌジーティー)

  • ビッグデータ処理ツール

NGT(Neighborhood Graph and Tree for Indexing)とは、高次元ベクトルデータ高速検索技術です。ビッグデータ分析/ディープラーニング領域に活用できる技術として注目されています。

Apache Spark(アパッチスパーク)

  • ビッグデータ処理ツール

Apache Spark(アパッチスパーク)とは、インメモリ高速分散処理プラットフォームで、大規模データ処理用統合分析機能を提供します。

Presto(プレスト)

  • データベース

Presto(プレスト)とは、分析クエリ実行用分散型SQLクエリエンジンです。

Catalyst(カタリスト)

  • FinTech系ツール

Catalyst(カタリスト)とは、暗号通貨トレーディングアルゴリズムライブラリです。

Hyperledger(ハイパーレッジャー)

  • FinTech系ツール

Hyperledger(ハイパーレッジャー)とは、オープンソース「ブロックチェーン技術推進コミュニティー」です。「Linux Foundation」が中心となり、世界30以上の先進的IT企業が協力して、ブロックチェーン技術/P2P分散レッジャー技術の確立を目指しています。

Pylearn2(パイラーンツー)

  • AI・人工知能

Pylearn2(パイラーンツー)とは、数値計算ライブラリ「Theano」ベースのオープンソースディープラーニングライブラリです。

MXNet(エムエックスネット)

  • AI・人工知能

MXNet(エムエックスネット)とは、「効率」と「柔軟性」を両立したディープラーニングフレームワークです。AWSが公式サポートを表明したことで大きな注目を集めています。

Theano(テアノ)

  • AI・人工知能

Theano(テアノ)とは、Python用数値計算ライブラリです。多次元配列を効率的に使用する数式について定義/最適化/評価でき、ディープラーニング計算処理によく利用されます。

H2O(エイチツーオー)

  • AI・人工知能

H2O(エイチツーオー)とは、オープンソースの分散型インメモリマシン機械学習プラットフォームです。

Eclipse Deeplearning4j(イクリプスディープラーニングフォージェイ)

  • AI・人工知能

Eclipse Deeplearning4j(イクリプスディープラーニングフォージェイ)とは分散型深層学習ライブラリです。「Java」「JVM(Java仮想マシン)」「各種アルゴリズム」をサポートします。

Keras(ケラス)

  • AI・人工知能

Keras(ケラス)とは、Python実装の高水準ニューラルネットワークライブラリです。「TensorFlow」「Microsoft Cognitive Toolkit」「Theano」上で実行できます。

Talend Open Studio(タレンドオープンスタジオ)

  • ETL

Talend Open Studio(タレンドオープンスタジオ)とは、ELTビジュアル開発ツール群です。コードを記述せずにETLプロセスを作成できる点が特徴です。

Torch(トーチ)

  • AI・人工知能

Torch(トーチ)とは、「機械学習ライブラリ」「科学計算フレームワーク」です。GPUを活用する機械学習アルゴリズムを幅広くサポートしています。

Pravega(プラベガ)

  • ストリームデータ処理

Pravega(プラベガ)とは、オープンソースの分散ストレージサービスです。連続した無制限のデータに対してストレージ抽象化を行う、分散コンピューティングコーディネーションフレームワークです。

Fess(フェス)

  • 検索エンジン

Fess(フェス)とは、Javaベースの全文検索サーバです。検索エンジンとして「Elasticsearch」を利用します。「5分で簡単に構築可能」な導入容易性が特徴です。

Schema Registry(スキーマ レジストリ)

  • ビッグデータ処理ツール

Schema Registry(スキーマ レジストリ)とは、メッセージングシステム「Apache Kafka」ベースのストリームデータ基盤「Confluent Platform」の1コンポーネントです。一元的なスキーマ管理機能を提供します。

Apache NiFi(アパッチナイファイ)

  • BIツール

Apache NiFi(アパッチナイファイ)。データフローオーケストレーションツールです。Webインタフェースでシステム間のデータフロー自動化定義が可能です。IoTデータフローを見据えた双方向性が特徴です。

Apache Flink(アパッチフリンク)

  • ストリームデータ処理

Apache Flink(アパッチフリンク)。分散ストリーム処理プラットフォームです。バッチ処理にも対応し、耐障害性/拡張性を備えたストリーム処理基盤です。

Apache Nutch(アパッチナッチ)

  • ビッグデータ処理ツール

Apache Nutch(アパッチナッチ)。オープンソースのWebクローラフレームワークです。Apache Hadoopによる拡張性が特徴です。

DSSTNE(デスティニー)

  • AI・人工知能

DSSTNE(デスティニー)。ディープラーニングライブラリです。Amazonがオープンソース公開したもので、スパース(疎)データに強いという特徴があります。

Apache Drill(アパッチドリル)

  • ビッグデータ処理ツール

Apache Drill(アパッチドリル)。ビッグデータに対応するスキーマフリーSQLクエリエンジンです。構造化データ/非構造化データなどのさまざまなデータソースに対して、直接SQLクエリを実行して結果を得ることができます。

Norikra(ノリクラ)

  • ストリームデータ処理

Norikra(ノリクラ)。ストリームデータ処理エンジンです。リアルタイムイベントストリームデータに対して、SQLライク言語でスキーマレスなデータ処理が可能です。手軽に利用できる点が特徴です。

Apache Lucene(アパッチルシーン)

  • 検索エンジン

Apache Lucene(アパッチルシーン)。高性能/高機能/極めてスケーラブルなオープンソース全文検索エンジンライブラリです。

Apache ManifoldCF(アパッチマニフォールドシーエフ)

  • ビッグデータ処理ツール

Apache ManifoldCF(アパッチマニフォールドシーエフ)。オープンソースクローラフレームワークです。インターネット上やイントラネット内のさまざまなサーバに保管されているドキュメントコンテンツ(Webページ/文書ファイル/DBデータなど)を収集し、それを検索エンジンに送ります。

Microsoft Cognitive Toolkit(マイクロソフトコグニティブツールキット)

  • AI・人工知能

Microsoft Cognitive Toolkit(マイクロソフトコグニティブツールキット)。AI技術を利用したディープラーニング(深層学習)ツールキットです。旧称「CNTK」から改名されました。

Apache Storm(アパッチストーム)

  • ストリームデータ処理

Apache Storm(アパッチストーム)。オープンソースで耐障害性に優れた高速分散処理型ニアリアルタイムビッグデータ処理フレームワークです。

OpenOLAP(オープンオーラップ)

  • BIツール

OpenOLAP(オープンオーラップ)。PostgreSQLを利用した、多次元データベース(OLAP)システム

Eclipse BIRT(エクリプス バート)

  • BIツール

Eclipse BIRT(エクリプス バート)。BIRTとは、Business Intelligence and Reportting Toolsの頭文字。Eclipse上で利用できるレポート開発環境

関連記事

セミナー講演資料公開中

企業のデータ活用に立ちはだかる「3つの壁」 ~どの壁で止まっているのか、自社のポジションを判定し、壁を乗り越えるためのワークショップ~

企業が「デジタルトランスフォーメーション(DX)に取り組む」とは、具体的にはどういうことなのか?

ベトナムでのAI(人工知能)開発って、ぶっちゃけどうなの?

  • オープソース書籍(サイド)

facebook

twitter