今回は、こちらの本を読んだので、5分でわかる記事にまとめてみた。データサイエンティストに興味がある人は必見です。
大学生は、学びたいデータサイエンスの単語調べにご活用ください。
データサイエンスとは
コンピューティング技術を活用して、データの収集と処理、統計学や機械学習的分析、意思決定や商品開発までの一連の流れを効果的に処理する技能を持つ人である。
なので、数学、アルゴリズム、ハードウェアの知識、ソフトウェアの知識、統計学、機械学習、ビジネスの課題解決などの応用力など幅広くの知識が必要。また、日進月歩している分野なので、日々の勉強が非常に大切である。
データの収集方法
- オープンなデータ(データベースなど)
- WEB API
- ウェブスクレイピング
がある。
コンピューターは、(キッチンで例えるなら)
- CPU (包丁)
- メモリ(まな板)
- 記憶容量(冷蔵庫)
から成り立っている。最近では、GPUと呼ばれる単純で並列性の高い計算に特化したCPUも登場しています。
ムーアの法則とは、集積回路の生産製造における長期的な傾向の指標であり、経験則に由来する予測である。
集積回路上のトランジスタ数は「18か月(=1.5年)ごとに倍になる」というものである。
wikipediaよりhttps://ja.wikipedia.org/wiki/%E3%83%A0%E3%83%BC%E3%82%A2%E3%81%AE%E6%B3%95%E5%89%87
プログラミング
機械が理解できるのは、機械語のみであり、私たちの書いたコードは基本的に途中で機械語に変換されている。プログラミングで使っているのは、基本高級言語である。
- 機械語
- アセンブリ言語
- 高級言語
オブジェクト指向とは、プログラムを手順ではなくて、モノの作成と操作として見る考え方だ。
- クラス
- プロパティ
- メゾット
などによって構成される。
最近では、ライブラリやパッケージと呼ばれる汎用性の高いものをまとめたコードがあり、より簡単に開発を進められるような現状が整いつつあります。
アルゴリズム
一般的に問題を解くための手順をアルゴリズムという。
- バブルソート
- インサーションソート
- クイックソート
- マージソート
機械学習
まず機械学習と統計学の違いについて説明したいと思います。
- 機械学習とは、データの予測の重きをおく。
- 統計学とは、データの説明に重きをおく。
ただし、どっちもデータを多く集めて分析するのは変わらない。
パラメトリックとノンパラメトリックとは、
- パラメトリックとは、数式を用いた明示的な関数を定義したもの。
- ノンパラメトリックとは、明示的な仮説を置かない。
である。長所と短所は、以下である。
長所 | 短所 | |
パラメトリック | 必要なデータが少ない モデル推定も簡単 解釈性が高い | モデルの仮説が悪いと、予想が合わない。 |
ノンパラメトリック | 真のモデルに近い | データが多く必要 モデル推定も難しい 解釈が難しい |
機械学習を分類すると教師あり学習と教師なし学習に分けられる。
教師あり学習(ラベルのついてデータを学習する)
- 特徴量、過学習、バリアンス(ばらつき具合)
- ランダムフォレスト
- サポートベクターマシーン
教師なし学習
- k-平均法
- 階層型クラスタリング
ディープラーニング
- ニューラルネットワーク
- ハーセプトロン
- ReLU
- 確率的勾配法
- RNN
- CNN
データオーグメンテーションとは、データを水増しする技術である。これによって、少ないデータからも多くのことを学習することができる。