Pythonによるデータ分析の教科書(その1)

「Pythonによるデータ分析の教科書」を入手したので、こちらの本で学んだことも書いていきます。

1.データ分析エンジニアの役割
1.1データ分析の世界
大量のデータをもとにデータ分析され、傾向や要因を掴む、未知の事象を予測できるようになる。
Pythonが得意とする分野
・データ分析
・サーバ系ツール
・Webシステムの構築
・IoTデバイスの操作
・3Dグラフィクス
Pythonが苦手とする分野
・Webアプリなどのフロントエンド
・デスクトップGUI
・速度向上などのための低れいーやー処理
・超大規模かつミッションクリティカルな処理
Pythonでデータ分析に使われるツール
・jyupyter Notebook(プログラミングの実行環境)、Numpy(数値計算パッケージ)、pandas(NumPywo基板とした、DataFrame構造を提供するパッケージ)、Matplotlib(データ可視化パッケージ)、SciPy(科学技術計算サポートパッケージ)、scikit=learn(機械学習のアルゴリズムや評価用ツールのパッケージ)など。
Python以外の選択士
・R言語
・Microsoft Excel
・javaやその他汎用プログラミング言語
データサイエンティストの役割
・数学。情報工学、対象分野の専門知識(ドメイン知識)の3つの分野の知識を総合的に持ち、データ分析またはデータ解析の一連の処理及び理解・評価をお粉Wる立場の職種
・モデルやアルゴリズム構築
・新たな解析や新技術への取り組み(研究分野)
・解決したい課題に向き合う実務(実務)
・データとの向き合い方の提示
・分析結果の評価
データ分析エンジニアの持つべき技術
・データの入入手や加工などのハンドリング
・データの可視化
・プログラミング
・インフラレーヤー
(付加的に持つべき技術)
・機械学習
・数学
・対象分野の専門知識(ドメイン知識)

1.2 機械学習の位置づけと流れ
機械学習とは、大量のデータからデータの特性を見つけてモデル化をおこない、このモデルから、入力したデータ以外の道のデータの数値予測や、入力データの素性を知るためのカテゴライズを行う。
機械学習を用いずに、カテゴライズや数値予測を行う方法
・ルールベース:条件分岐の要領でプログラミングでルールを記述する方法
・統計的な手法:データから統計的な数値を求め、それらの数値にそうように予測するアプローチ
機械学習の分類
・教師あり学習:正解ラベルとなる目的データ(目的変数)が重要な意味を持ち、正解ラベル以外のデータ(説明変数)をもとに正解または正解に近い値を予測する方式
目的変数が連続値の場合は回帰、そうでない場合は分類
・教師なし学習:正解ラベルを用いない学習方法、データ間の特徴をもとに学習。クラスタリング、次元削減といったタスクを実施
・強化学習:ブラックボックス的な環境の中で行動するエージェントが、得られる報酬を最大化するような状態に応じた行動を学習していく手法、将棋や囲碁のようなゲームに活用

機械学習の処理手順
・データ入手
・データ加工
・データ可視化
・アルゴリズム選択
・学習プロセス
・精度評価
・試験運用
・結果利用

参考にした書籍
タイトル:Pythontによるデータ分析の教科書
著者:寺田学、辻真吾、鈴木たかのり、福島真太朗
発行所:株式会社 翔泳社

 

 

 

 

 

 

 

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください