受験掲示板・100点BBS【大学受験解答速報掲示板・受験生応援掲示板】
立正大学掲示板(スレッド一覧)
数学が苦手でも大丈夫! データサイエンスに必要な数学の分野・学習すべき内容 - 立正大学掲示板

数学が苦手でも大丈夫! データサイエンスに必要な数学の分野・学習すべき内容


0DS Media 2024/12/11 12:30  1281view
★ データサイエンスに必要な数学の分野・学習すべき内容

DS Media by Tech Teacher の ”数学の苦手を克服して挑戦! 学習すべき内容とは?”の記事より
7/3/2022

◆ データサイエンスとは

「データサイエンス」とは、統計学、機械学習や人工知能(AI)、データ分析など、色々な領域の手法を組み合わせて、蓄積された大量のデータから価値を引き出す研究分野です。

大量のデータの中から、企業や私達の生活にある様々な課題解決につながる価値を発見し、アクションにつなげる役割を果たします。


◆ データサイエンスと数学との関係

データサイエンスは次のようなプロセスでデータを解析していきます。

@ビジネスの理解と課題の定義

まずは、対象となるビジネスを理解することから始まります。そして現在抱えている、解消するべき課題を定めます。ここが明確になればなるほど、「どのようなデータを収集するべきなのか」「集めたデータをどのような切り口で加工するべきなのか」という様にデータを取り扱う後続のプロセスでの道標となります。

Aデータマイニング

収集された大量のデータから、どのデータに注目して使えるように加工していくのか、を定義し、対象となるデータを探し当てる工程となります。

マイニングとは「掘り当てる、採掘する」という意味ですが、「埋まっているかどうかわからないダイヤモンドの原石を掘り当てる」というよりは、「広大なジャングルの中から美味しい果実のなっている木を探す」というイメージで、「必ず存在するが、使い道のない不要なデータや不完全なデータの中に埋もれている、求めているデータを探し出す作業」となります。

データマイニングには2種類あります。このプロセスでは数学の知識、特に分析手法が関係してきます。


データマイニング@仮説検証型
探し出すデータが定まっており、例えば購入される商品の量やお客さんの反応を推測したり、そのためにお客さんを分類したりするものです。ここでは「回帰分析」「クラスタリング」という分析手法が用いられます。

データマイニングA知識探索型
探し出すデータが定まっておらず、与えられたデータからルールやパターンを見つけ出していくものです。「アソシエーション分析」という分析手法が用いられます。

これらの手法を用いて、データの中に隠れている一連のルールを式として表現した「モデル」を作成します。モデルを参照して予測を生成していきます。

B機械学習

機械学習とは、データの予測や分類を行うためのモデル作成を、機械(コンピュータ)によって自動的に行う技術です。機械に作業をさせようとするならば、今までは人間が機械に対して毎回命令を与える必要がありました。しかし、機械学習と言われる分野では、機械が自分で膨大なデータを読み込み、機械自らがルール、パターンを学習していきます。

機械学習はAI(人工知能)が支えており、「統計学」「線形代数」「微分積分」といった分野の数学知識が関係してきます。

機械学習は前述したデータマイニングと類似しています。データマイニングは主に人間が行うのに対し、機械学習はその名の通り機械が行います。しかし全くの別物ということではなく、データマイニングにより明らかにされた過去のデータ分析結果を、機械に学習させて将来の予測を算出する、といった併用活用をすることもできます。

C課題解決手段の可視化とアクション決定
企業やビジネス上で抱えている課題に対して、データの中から解消に有効となり得る価値ある情報を「データマイニング」と「機械学習」によって見つけ出すことができました。

得られた価値ある情報を活用して、課題解消手段を立案し実際のアクションに落とし込んでゆくプロセスです。データサイエンスの本来の目的は、課題を解決し、企業活動や我々の生活をより豊かで便利、活発にしていくことにあります。


◆ データサイエンスに必要となる数学の分野

データサイエンスに必要な数学の分野として、以下の4つが挙げられます。


@確率・統計学

確率・統計学は、データの持つ性質を調べて活用目的に応じてデータを分析するときに使われる学問です。大量のデータを扱いやすく分類整理することはデータサイエンスにとっては最重要なプロセスとなり、確率・統計の数学知識は必須のものとなります。

データマイニングのところで紹介した「回帰分析」「クラスタリング」「アソシエーション分析」もこの分野に含まれます。

A線形代数  

線形代数の中でも、特に「行列」が重要となってきます。行列とは「同一の性質を持つ情報の要素を縦×横に並べたもの」であり、データの取り扱いが意味のあるかたまりとして表現できるので取り扱いが容易になり、数値化することで機械(コンピュータ)が計算できるようになるのです。

B微分・積分

微分・積分を理解できていれば、機械学習において「ある値が最小(最大)になる部分を計算することができる」様になります。

例えば微分とは、現在の状況がどのくらいの速さで変化をしているのか、または変化をしていないのか、を数値化して表現することができます。このことを利用して、将来どのような変化をしてどのような数値になるのか、最小の値、最大の値はどの様になるのか、を詳細に予測することができます。モデルを作成において最小と最大が求めることが強いモデルを作成できることに繋がります。

C最適化理論

最適化とは、制約がある中で、複数の選択肢の中から一番効果の高い組み合わせを決めることです。最適化理論として有名な「ナップザック問題」がありますが、「容量の決まっているナップザックに、値段の違ういくつかの品物を詰め込み、その価値を最大化する」という最適化問題です。

私達の日常生活の身近なところでの活用例は「電車の乗り換えルート検索」が挙げられます。A地点からB地点まで行くいくつかの電車ルートがある中で「一番早く到着する」「乗り換え回数が一番少ない」「料金が安い」など、一番効率よくたどり着けるルートを検索するときに、この最適化理論は使われています。

「一番早いが料金も一番高い新幹線」が常に選択されるということではなく、「課題を抱えている人にとっての一番の最適解」を見出す事が重要になります。


◆ 数学の苦手を克服してデータサイエンスに挑戦するロードマップ!

ステップ1:線形代数と微分・積分を、入門レベルの参考書で学ぶ 

ステップ2:確率・統計学の全体概要を学ぶ

ステップ3:最適化理論を学ぶ


「線形代数」と「微分・積分」は、「確率・統計学」の説明で使われます。そのため、ステップ1とステップ2は、一度で完璧に理解しようとせずに何度も行き来しながら学習を進めましょう。

「最適化理論」に関しては、勉強しておくと機械学習の理解に役に立ちます。データサイエンスの中で機械学習分野に進みたい方は、ぜひここまで学習することをおすすめします。


★ 数学の苦手を克服してデータサイエンスに挑戦!学習すべき内容とは?:https://www.tech-teacher.jp/blog/datascience-math/







5pt
17pt

立正大学掲示板(スレッド一覧)
コメントする検索画像一覧 アンケートTOP
3名前を書き忘れた受験生 2024/12/15 10:23
ありがとう。どれくらいDS(データサイエンス)に数学の知識が必要か不安だったけれど、勇気をもらえました。
頑張ります!
11pt
0pt
2名前を書き忘れた受験生 2024/12/12 12:23
苦手でええわけないやろ
7pt
9pt
1名前を書き忘れた受験生 2024/12/12 11:01
数学苦手でもいいのか
0pt
10pt
コメントする検索画像一覧 アンケートTOP
前へ次へ
関連トピック
掲示板TOPへ戻る