Excelを使って基礎統計を学ぼう
スライド資料(PDF形式)と演習用データ(Excel形式)のダウンロードはコチラ
Ⅰ.データ分析と統計
はじめに [▶]
説明を表示する
統計と聞くと「難しい理論や数式が出てきてそこで挫折してしまった」という経験があるのではないでしょうか。しかし統計というのはあくまでも道具ですので、それがビジネスの現場で何に使えるのか、エクセルでどうやって操作するのか、について知っていればいいわけです。この講座のでは演習を交えながら、データ分析の目的、手法、基本的な集計、将来予測(発生確率)、結果の検証(集計数値に意味があるかないか)について学びます。
説明をたたむ
(1)データ分析の目的 [▶]
説明を表示する
皆さんは日々の仕事の中で何かしら意思決定をしています。例えば、その設備を導入するのかしないのか、あるいはこの人を採用するのかしないのか、この人を昇進させるかどうか、ある商品を仕入れる際に発注数量をいくつにするか、あるいはこの商品の販売価格をいくらにするか・・・。そのような時に、今までの勘と経験だけではなく、何かしらの拠り所となる客観的な判断材料が欲しいというニーズがあるかと思います。勘と経験だけではない、何か過去の事実に基づいた客観的な証拠や数値に基づいて意思決定をして行こうというのが、広い意味においてのデータ分析の目的ということになります。
さらに狭義での目的としては、事業活動のモニタリングや異常値チェック、長期視点でトレンドを捉える、重要なものに絞り込む、差異を明らかにする、因果関係を探る、予測する、分類する、などが挙げられます。
説明をたたむ
(2)統計は必要なのか? [▶]
説明を表示する
日々の仕事の中で様々なデータ集計をやっていると思いまが、売上集や生産数の集計する際には、特に難しい統計の知識が必要になるケースはそんなにないかと思います。
例えばお客様アンケートを100人に行い、満足度を知りたければ「満足」と答えた人をカウントするだけです。その件数が76件であれば満足率が76%ということになります。
あるいは、過去1年間の弁当の販売実績を集計したら1日平均30個でした。一番多い日は50個、少ない日では10個でした。これは過去の実績を把握するためのもので特に統計の知識を必要とするわけでありません。
しかし例えばこういうケースを考えてみて下さい。先ほどのお客様アンケートで、去年はお客様100名中71名が満足と答えていたので、今年は5名(5%)増えのでお客様満足度は向上したと言えるのか、この5名というのは誤差の範囲内かもしれません。
お弁当のケースでは、1日平均30個売れるので明日の仕込みを30個としてよいものか、しかしそれでは売り逃しが発生するような気もします。
統計には、その集計結果を検証したり、過去のデータに基づいて将来を予測するという機能があります。従来やっていたデータ分析は単にカウントする集計に過ぎませんが、統計とはそこに何かしら解釈や意味づけを与えてくれるのです。
説明をたたむ
(3)データ分析の手法 [▶]
説明を表示する
データ分析には「現状を把握する」という機能があります。そしてさらに「検証や予測を行う」という機能もあります。この二つに分けて説明をしていきます。
まず現状を把握するデータ集計には、取り扱うデータのタイプによって2つに分かれます。一つは数量データの集計、もう一つは男か女か、YesかNoかといった定性的データ(カテゴリーデータ)の集計で、これらを記述統計と呼びます。
もう一方の検証や予測を行う手法を推測統計といいますが、これについて大きく三つに分かれます。
ある異なる集団についてデータ分析を行い、集団ごとの平均値や比率が求められました。その平均値に差があった時に、その差というのは本当に意味がある差なのかどうか。あるいは比率が出てきた時にその比率の差には意味があるのか、このようなことを科学的に検証するのが検定というものです。
そして二つ目が相関分析で、例えばお客様の満足度が下がっているといった場合に、下げている要因は何なのか、何が関係しているのかを分析するものです。
さらに統計の中には、多変量解析というマニアックな分析手法があります。これは昨今の機械学習のベースになるものですが、その中には回帰分析、クラスター分析、因子分析、決定木といった手法があります。
説明をたたむ
(4)データ分析の流れ [▶]
説明を表示する
一般的なデータ分析の流れは、①データを準備し、②データ集計を行い、③アウトプットを見て考察や判断をする、ということになります。
ただデータがあるから何かしら分析をしてみましょうということでは、期待したようなアウトプットが出てこないということもあります。従って「何をしたいのか」という目的から逆算して必要となるデータを集めることが重要です。というのもアウトプットというのは、素材の良さで結果が決まるということになるからです。
例えば「販売価格を値上げしたい」という場合、価格を上げるとお客様の数が減ってしまうのではないか、あるいはお客様の購買1回あたりの購買数量が減るのではないか、そういったことが心配になります。その時にどんな結果が欲しいのかを想定します。ここでは、売価と販売数量の相関を見ればいいわけですから、過去1年間の日ごとの売価,販売数,客数のデータを準備することになります。
X=売価、Y=販売数/客数 として、XとYの相関係数を計算する
説明をたたむ
(5)分析データの種類 [▶]
説明を表示する
分析するデータには、大きく二つタイプがあります。一つは1,2,3というような数量のデータです。この中にはお金や長さや重さあるいは時間、またアンケート用紙の五段階評価といった情報も数量データに分類されます。このような数量データについては足したり引いたりといった四則演算が可能で、平均値や標準偏差などを求めることができます。
もう一方の定性的なものには、性別や血液型あるいは商品バーコードのようなものもがあり、これらを定性データとかカテゴリーデータといいます。郵便番号とか電話番号などは数字の羅列になっていますが、これはユニークな識別番号ですからカテゴリーデータに属します。このようなカテゴリーデータについては、その件数をカウントするのが基本的な集計方法になります。
説明をたたむ
Ⅱ.数量データの基礎集計
(1)代表値(平均,中央値,最頻値) [▶]
説明を表示する
ここでは、データ集団の特性を表す代表値について説明します。この代表値は、一般的には平均値がよく使われます。例えば、A社の平均年齢は45歳でB社の平均年齢は32歳だったとします。この場合B社の方が若い人が多いということが推測されます。このように、平均値というのは非常に分かりやすく馴染みもあって、計算もしやすいし、日常的に平均点、平均身長、平均年齢、平均年収、色々な平均値を意識しながら暮らしています。従って我々はこの平均値というのものが「絶対的なもの」として捉えているという傾向があります。しかしその平均点というのは、絶対的なものではなくそこには盲点があるということについてお話しします。
日本人の二人以上世帯の平均貯蓄額というのが毎年発表されますが、大体1800万円前後です。どうでしょうか?平均して1800万円、我々の肌感覚よりちょっと高いと感じませんか。おそらく平均の1800万円をピークとしての左右対称の山型分布、すなわち正規分布をイメージするからそのような錯覚に陥るのです。
しかし実際の分布は貯蓄ゼロ円の人から増えていって多分200万円~300万円くらいがピークでだんだん下がってくる、右側がロングテールとなるような形になります。
平均貯蓄額の他に中央値という指標も報告されますが、それは1000万円くらいです。
最も貯蓄額の低いところから数えてちょうど半分のところが中央値です。それでもまだ高いように感じます。発表はされませんが最頻値が200万円程度と推察されます。最頻値とは件数がピークとなる値のことを言いますが、このくらいだと我々の肌感覚にも合いそうです。
いかがでしょうか、世帯の平均貯蓄額の代表値としてはどれがふさわしいのか、どれが一番肌感覚に合うかという視点も非常に重要であるといえます。
集団の特性を表す代表値には、平均値の他に中央値とか最頻値というものがあり、平均値と中央値あるいは平均値と最頻値の乖離が大きいものについては、左右対称の山形分布ではなく片寄った分布になっています。そのような場合は、中央値や最頻値にも着目して分析を進めていきましょう。
説明をたたむ
(2)ばらつきの指標 標準偏差 [▶]
説明を表示する
標準偏差について説明します。
まずは皆さんが転職を考えているとして、A社かB社どちらがいいと思いますか?
平均年収はA社B社ともに500万円です。ですから平均年収だけで見ると、両社は変わらないということになります。
もう一つの指標として、標準偏差がA社500万円、B社200万円だったとします。どちらも平均は同じで標準偏差が異なる、すなわちばらつきが異なるということです。
A社は標準偏差がB社に比べて小さい、要するに給料格差があまりない。それに比べてB社はばらつきが大きい、すなわち給与格差が大きいということになります。
A社はなるべく均等で横並び、B社の場合は成果連動型で高給取りからそうでない人の差が激しい、さて皆さんはどちらの会社を選びますか?
ここで重要なことは、平均だけでは判断がつかないこともあるということです。そしてこのばらつき具合の指標が標準偏差というもの、ビジネスの現場においても非常に重要な指標となっています。
説明をたたむ
(3)数量データの分析【Excel演習】 [▶]
説明を表示する
演習の内容について説明致します。
当社はダイエットサプリメントのメーカーで、2つの異なるサプリメントの効果測定を行うという想定です。
まずサプリメントAを100名の方に4週間飲んで頂き、同じくBも100名の方に4週間飲んで頂きました。そして開始時と終了時にモニターさんのウエストサイズを測定しました。
AグループとBグループについて、それぞれ以下の数値を求めてどちらのサプリメントが優れているのかを判定していきます。
⇒サイズダウン(開始時サイズ-終了時サイズ)の、平均値、中央値、最頻値、標準偏差
説明をたたむ
(4)母集団と標本 [▶]
説明を表示する
母集団と標本について説明します。
この考え方は統計的な解釈をする上で、非常に重要な概念となります。先ほどのサプリメントの例でお話しします。先ほど集計したように、サプリメントAグループ100名のサイズダウンの平均が-2.16cmでした。しかしこれはあくまでも、今回のモニターに協力してくれた100名のデータです。別の100名を選んだらどうなるでしょうか?おそらく-2.16cmということはなく違った数字になると思います。別の300名に聞いたらどうでしょうか?やはりまた平均は違ってくるでしょう。今回の対象者100名の平均値は非常に危ういと言うか不安定なものだということが言えます。この-2.16cmという結果から、これを女性全体に当てはめた時にどのくらいブレ幅で見ておいたらいいのでしょうか。
この平均値の範囲を推測するというのが、信頼区間の推定というものになります。その推定の仕方については動画の中で説明致します。
説明をたたむ
(5)箱ひげ図【Excel演習】 [▶]
説明を表示する
ここでは箱ひげ図について説明します。
数量データの分析では平均や標準偏差を算出するケースが多いのですが、数値だけではなく「図にして目で確認する」ということは非常に重要です。それに適したグラフが箱ひげ図というもので、これは昨今の大学入試においても必ずと言っていいほど出題されています。
これはデータサンプルを、最小値~1/4ライン、1/4ライン~2/4ライン、2/4ライン~3/4ライン、3/4ライン~最大値といった具合に均等に4分割して図示するものです。さらに箱ひげ図では、ある基準で外れ値というものを算出して図示します。要するに集団からあまりにも離れすぎているサンプルは除外してみていきましょうという考え方です。エクセルでも、Excel2016からこの箱ひげ図が書けるようになりました。
先程のダイエットサプリの演習で行ったAグループとBグループの比較も、この箱ひげ図を使えば、平均や中央値やばらつき範囲の差が一目瞭然です。
説明をたたむ
(6)度数分布・ヒストグラム【Excel演習】 [▶]
説明を表示する
度数分布について説明します
前述した箱ひげ図でも説明しましたが、データ群の特性を数字だけではなく分布を図にして目で捉えるということが非常に重要です。そして従前からよく用いられるのが「ヒストグラム(度数分布)」という図です。それは、数量を区間で区切ってその間のデータ件数をカウントするもので、先ほどのサプリメントの例であれば、サイズダウンの状態を1cm刻みでカウントしましょうというものです。例えば0~-1cmが何人、-1cmから-2cmが何人といった具合で、その件数を縦棒グラフにしたものがヒストグラムです。
説明をたたむ
(7)データの基準化と偏差値【Excel演習】 [▶]
説明を表示する
数量データの基準化について説明します
これまでの分析はデータ集団の特性を明らかにするということを目的に分析をしてきました。しかしここでは集団全体ではなく、個々のサンプルに着目してそのサンプルの特性を明らかにしようというところがこれまでとは違います。
例えば営業マンの成績を評価するというケースを考えてみます。
営業マンを評価には、売上実績であったり、昨年からの伸長率、あるいは新規顧客の獲得件数などの指標を用います。
しかしこれらの指標は単位も違うしスケールも違います。売上実績は円、伸長率は%、新規獲得件数は件、目盛りもバラバラですので、単純に比較することができません。
そこで登場するのが「偏差値」です。この偏差値は学生の頃にやった学力テストで、実際の点数と共に算出されていたものなので皆さんも馴染みがあると思います。難しいテストであろうが易しいテストであろうが、平均点であれば偏差値50、偏差値60以上出れば優秀、偏差値40以下はかなり悪いというった具合です。
営業マンを評価するケースでも、売上実績、昨対伸長率、新規獲得件数をそれぞれ偏差値に変換すれば、同じ土俵で比べることができるようになります。
計算式は、{(当該データ-平均点)/標準偏差}×10+50 になります。
説明をたたむ
Ⅲ.カテゴリーデータの基礎集計
(1)カテゴリーデータの集計 [▶]
説明を表示する
カテゴリーとは性別や年代などの分類項目のことで、その中の“男”“女”や“10代”“20代”“30代”などの選択肢をアイテムといいます。このようなデータを分析する手法には、単純集計とクロス集計があります。
単純集計というのはその名の通り単純にそのカテゴリー内のアイテム件数をカウントするというものです。例えば男性120人、女性80人、20代45人、30代54人というように人数をカウントし、さらに男性60%で女性40%というように全体に占める構成比を計算します。
そしてクロス集計の方は、その名の通り2つのカテゴリーを交差して集計するもので、20代男性が15人、20代女性が12人、30代男性が33人、30代女性が21人、という結果を得ます。Excelではピボットテーブルという機能を使って集計します。
説明をたたむ
(2)ピボットテーブルの基本操作 [▶]
(3)単純集計とクロス集計の演習【Excel演習】 [▶]
(4)単純集計とグラフ [▶]
(5)母比率の推定 [▶]
説明を表示する
母比率の推定について説明します。
数量データの母平均の推定のところでも説明したように、サンプルリング(抜き取り)調査の場合には、母集団の平均がどの範囲にあるのかを推定する必要があります。同じようにカテゴリーデータの場合も母集団に当てはめた場合に、その比率がどのくらいの範囲にあるかを推定する必要があります。これを母比率の推定といいます。
例えばお客様アンケートの結果、お客様満足度が35%となった場合に、これはあくまでもお客様の一部に対して行ったものですから、母集団では35%±*%というブレ幅を見ておくということです。
このブレ幅はサンプル数Nによって決まってきます。常識的に考えても10人に対して行った調査と1000人に行った調査の結果では、当然10人の方がブレ幅は大きく、1000人に行った調査結果の方が信頼性は高い(ブレ幅が小さい)ということになります。
実際の求め方についてはスライドの中で説明しますのでご確認ください。
説明をたたむ
(6)クロス集計のポイント [▶]
Ⅳ.確率分布
(1)確率分布とは(ビジネスでの用途) [▶]
説明を表示する
ここでは統計的な手法を使ってある事柄がどのくらいの確率で起こるかを推定する手法について学びます。例えば、以下のようなケースを考えてみます。
【ケース1】
東京ビッグサイトで会社の合同説明会が行われている。当社のブースには初日から三日間で150名の学生が訪れた。そして明日はいよいよ最終日。さて学生に渡すパンフレットはいくつ準備しておいたら良いか
【ケース2】
当社はオフィス街でお昼のお弁当ワゴン販売している。過去1年間の販売実績を集計したら1日平均30個売れていることがわかった。売り逃しは極力避けたいので、品切れ率を10%以下に抑えたいとした場合、お弁当はいくつ準備したらよいか。
【ケース3】
競艇では1回のレースで6艇が出走して勝ち負けを競う。素人のA君がどの舟券を買っていいのかよく分からないので6回のレースで全て1番艇にかけることにした。そうすれば確率的には6回やれば1回は当たるはず。しかし運悪く1回も取れないというリスクもあるがそれはどの程度の確率で発生するか。
このような場合に用いられる手法が確率分布になります。
【ケース1】
東京ビッグサイトで会社の合同説明会が行われている。当社のブースには初日から三日間で150名の学生が訪れた。そして明日はいよいよ最終日。さて学生に渡すパンフレットはいくつ準備しておいたら良いか
【ケース2】
当社はオフィス街でお昼のお弁当ワゴン販売している。過去1年間の販売実績を集計したら1日平均30個売れていることがわかった。売り逃しは極力避けたいので、品切れ率を10%以下に抑えたいとした場合、お弁当はいくつ準備したらよいか。
【ケース3】
競艇では1回のレースで6艇が出走して勝ち負けを競う。素人のA君がどの舟券を買っていいのかよく分からないので6回のレースで全て1番艇にかけることにした。そうすれば確率的には6回やれば1回は当たるはず。しかし運悪く1回も取れないというリスクもあるがそれはどの程度の確率で発生するか。
このような場合に用いられる手法が確率分布になります。
説明をたたむ
(2)ポアソン分布【Excel演習】 [▶]
説明を表示する
ポアソン分布について説明します。
ポアソン分布は、予測する対象が数値、そして前提条件としては平均値がわかっているというものです。ですから比較的広い範囲で使える手法であるといえます。
ここでは先程の【ケース1】について考えてみます。予測したいのは当ブースに訪れる学生の人数の最大値、そして平均は1日50人(過去3日間で150人)ということがわかっています。
ExcelではPOISSON.DISTという関数を使ってその確率を求めますが、詳細については動画をご覧ください。
説明をたたむ
(3)正規分布【Excel演習】 [▶]
説明を表示する
正規分布について説明します。
数量データは一般的に正規分布をとることが多いと言われています。例えば成人男性の体重分布のケースで考えると、平均67kgをピークとして左右対称の山形分布を描きます。全体を100%としてそれぞれの値(ここでは体重kg)の構成比が確率に相当します。この時、縦軸を度数(人数)ではなく構成比(%)に置き換えたものが確率分布になります。
予測にこの正規分布を適用するのは、予測する対象が数値であって、条件としては平均値と標準偏差がわかっているというケースです。
ここでは先程の【ケース2】について考えます。予測したいのは弁当の販売数、そして過去の販売実績から平均30個/日、標準偏差は8個ということがわかっています。ただし予測数には売り逃しを10%以下に抑えるという条件が設定されています。
平均が30個ということはそれ以上売れる確率も半分くらいある、すなわち30個準備したら売り逃しの確率が50%くらいあるということになります。それでは40個の時の売り逃し確率は何%になるか50個であれば何%かという具合に、数値ごとの確率を求めていきます。
ExcelではNORM.DISTという関数を使ってその確率を求めますが、詳細については動画をご覧ください。
説明をたたむ
(4)二項分布【Excel演習】 [▶]
説明を表示する
二項分布について説明します。
二項分布は、予測の対象が「YESかNOか」「買うか買わないか」といった二者択一のカテゴリーデータ、そして条件としてはある一方の確率がわかっているというケースで用いられます。
ここでは先程の【ケース3】について考えます。予測したいのは「1番艇が当たるか外れるか」という2値のカテゴリーデータ、そして1番艇の勝率はここでは1/6に設定しています。そして求める確率は6レースとも全て外れるケースです。
ExcelではBINOM.DISTという関数を使ってその確率を求めますが、詳細については動画をご覧ください。
説明をたたむ
Ⅴ.有意差の検定
(1)母平均の有意差検定 [▶]
説明を表示する
母平均の差の検定について、先の演習でやったダイエットサプリメントのケースで説明します。
サプリメントAを摂取した100人のサイズダウンの平均-2.16cm、そしてサプリメントBを摂取した100人の平均は-1.78cmでした。AとBの間には約4ミリの差がありますが、これはあくまでもサンプリング調査の結果で、女性全員(母集団)に対して行ったわけではありません。例えば別の100人で試したらその平均も多少は変わってくるでしょう。
ではこのAグループとBグループの差は誤差の範囲なのか、それとも確かにこの平均には差がある(つまりサプリメントAの方がサプリメントBに比べダイエット効果が高い)のか・・・・・。そこで、これを検証するのが「平均値の差の検定」すなわちt検定と言われるものです。2つの平均値で「差が有るのか/差が無いのか」ということを統計的に判定するのです。このt検定には標本(ここではモニターさん)のタイプによって二通りのやり方があります。それについて次のスライドで説明します
説明をたたむ
(2)t検定の演習(同一標本)【Excel演習】 [▶]
説明を表示する
同一標本によるt検定について説明します。
同一標本とは、対象サンプル(ここではモニターさん)が同じということです。すなわちAグループの開始時の平均点80.7と、同じAグループの終了時の78.6を比較し、この平均値に差があるか否かを検定するようなケースです。すなわちここで検証するのはダイエットサプリAにサイズダウン効果があるか否かということです。同様に、Bグループの開始時と終了時の平均値についても、この同一標本によるt検定を使って有意差を検証します。
Excelでは、アドイン機能のデータ分析ツールの中の「t検定:一対の標本による平均の検定」を使って行います。
説明をたたむ
(3)t検定の演習(異なる標本)【Excel演習】 [▶]
説明を表示する
次に異なる集団異によるt検定について説明します。
異なる集団というのは、対象サンプル(ここではモニターさん)がAグループとBグループというように異なっているケースです。AグループとBグループのサイズダウンの平均の間に有意な差があるかどうか、すなわちサプリAとBでダイエット効果に差があるといえるかを統計的に判定するのです。
Excelでは、アドイン機能のデータ分析ツールの中の「t検定:分散が等しくないと仮定した2標本による検定」を使って行います。
説明をたたむ
(4)カイ二乗検定の演習【Excel演習】 [▶]
説明を表示する
母比率の差の検定について説明いたします
前の節で平均の差の検定について説明しましたがこれは数量データの場合ですから、カテゴリーデータの場合は比率に差があるかどうかという検定になります。
前節の来店客アンケートの事例で説明すると、ビールが好きか嫌いかという質問に対し、男性(回答者100名)はYESが70%、女性(回答者80名)はYESが50%でした。この結果から「男性の方が女性よりもビール好きが多い」といえるかどうか。これを判定するのがカイ二乗検定です。アンケート調査とか品質検査などは、一般的にサンプル(抜き取り)データですので、その結果をそのまま母集団に当てはめていいものかどうか、それを検証するのが統計の1つの役割(推測統計といいます)となっています。
Excelでは、「CHISQ.TEST」という関数を使って行います。詳細につきましては動画をご覧ください。
説明をたたむ
本セミナーの総括 [▶]
説明を表示する
最後にこの研修での学びを総括します。
統計で扱うデータには、数量データとカテゴリーデータの2つがあり、それによって分析のアプローチが違ってくるということでした。数量データの方は平均値、中央値、最頻値などの代表値を算出し、さらに二つのデータ群の間の平均に差があった場合には T 検定というものを使って検証するやり方についても学びました。
そして代表値だけではなくデータのばらつき具合を見るとことも必要で、その指標が標準偏差というものでした。さらに数値だけではなく箱ひげ図を使ってばらつき具合を目で見て確認しようということも学びました。
そして個々のデータについて比較する場合は、データを偏差値にして比べる手法についても学びました。
カテゴリーデータについては、ピボットテーブルを使って単純集計やクロス集計をして、そこに比率の差がある場合にはカイ二乗検定を使って検証するやり方についても学習しました。
また将来の売上や来場者数を予測する手法として、ポアソン分布、正規分布、二項分布といった確率分布についても学習しました。
この研修で学んだ統計手法が、何か一つでも皆さんのお仕事に役立てば幸いです。
説明をたたむ