統計学 とは?ページ内リンク ↓ウィキペディア(Wikipedia)記事 ↓Yahoo!知恵袋統計学 出典: 『はてなダイアリー』 関連商品
小島 寛之 /
最安値(新品): ¥ 1,890
最安値(中古): ¥ 1,664
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||
目次 |
統計学は、経験的に得られたバラツキのあるデータから、応用数学の手法を用いて数値上の性質や規則性あるいは不規則性を見いだす。統計的手法は、実験計画、データの要約や解釈を行う上での根拠を提供する学問であり、幅広い分野で応用されている。
英語で統計または統計学を statistics と言うが、語源はラテン語で「状態」を意味するstatisticum であり、この言葉がイタリア語で「国家」を意味するようになり、国家の人力、財力等といった国勢データを比較検討する学問を意味するようになった。現在では、経済学、自然科学、社会科学、医学(疫学、EBM)、薬学、心理学、言語学など広い分野で必須の学問となっていることは論をまたない。また統計学は哲学の一分科である科学哲学においても重要なひとつのトピックスになっている。これは統計学が科学的な研究において方法論上の基礎的な部分を構成していながら、確率という一種捉えがたい概念を扱っているためであり、その意味やあり方が帰納の正当性の問題などと絡めて真剣に議論される。
統計学の源流は国家または社会全体における人口あるいは経済に関する調査(東西を問わず古代から行われている)にある。
学問としては、17世紀にはイギリスでウィリアム・ペティの『政治算術』などが著述され、その後の社会統計学につながる流れが始まった。またゴットフリート・ライプニッツやエドモンド・ハレーによる死亡統計の研究も行われた。これらの影響のもと18世紀にはドイツのジュースミルヒが『神の秩序』(1741年)で人口動態にみられる規則性を明らかにしたが、これには文字通り「神の秩序」を数学的に記述する意図があった。
ドイツでは17世紀からヨーロッパ各国の国状の比較研究が盛んになったが、1749年にアッヘンヴァルがこれにドイツ語でStatistik(「国家学」の意味)の名をつけている。19世紀初頭になるとこれに関して政治算術的なデータの収集と分析が重視されて、Statistikの語は特に「統計学」の意味に用いられ、さらにイギリスやフランスなどでも用いられるようになった。この頃アメリカ、イギリス、フランスなどで国勢調査も行われるようになる。
一方ブレーズ・パスカル、ピエール・ド・フェルマーに始まった確率論の研究がフランスを中心にして進み、19世紀初頭にはピエール=シモン・ラプラスによって一応の完成を見ていた。またレオンハルト・オイラーによる誤差や正規分布についての研究も統計学発展の基礎となった。ラプラスも確率論の社会的な応用を考えたが、この考えを本格的に広めたのが「近代統計学の父」と呼ばれるアドルフ・ケトレーであった。彼は『人間について』(1835年)、『社会物理学』(1869年)などを著し、自由意志によってばらばらに動くように見える人間の行動も社会全体で平均すれば法則に従っている(「平均人」を中心に正規分布に従う)と考えた。ケトレーの仕事を契機として、19世紀半ば以降、社会統計学がドイツを中心に、特に経済学と密接な関係を持って発展する。代表的な人物にはアドルフ・ワグナー、エルンスト・エンゲル(エンゲル係数で有名)、ゲオルク・フォン・マイヤーがいる。またフローレンス・ナイチンゲールも、社会医学に統計学を応用した最初期の人物として知られる。
同じく19世紀半ばにチャールズ・ダーウィンの進化論が発表され、彼の従弟に当たるフランシス・ゴルトンは数量的側面から進化の研究に着手した。これは当時Biometrics*(生物測定学)と呼ばれ、多数の生物(ヒトも含めて)を対象として扱う統計学的側面を含んでいる。ゴルトンは回帰の発見で有名であるが、当初生物学的と思われたこの現象は一般の統計学的対象の解析でも重要であることが明らかとなる。ゴルトンの後継者となった数学者カール・ピアソンはこのような生物統計学をさらに数学的に発展させ(数理統計学)、19世紀終わりから20世紀にかけ記述統計学を大成する。
(*注:現在の言い方では生物統計学Biostatisticsに当たり、この単語は現在では生体認証という別の意味で使われている)
20世紀に入ると、ウィリアム・ゴセット、続いてロナルド・フィッシャーが農学の実験計画法研究をきっかけとして数々の統計学的仮説検定法を編み出し、記述統計学から推計統計学の時代に移る。ここでは母集団から抽出された標本を基に、確率論を利用して逆に母集団を推定するという考え方がとられる。続いてイェジ・ネイマン、エゴン・ピアソンらによって現代の推計統計学の理論体系が構築され、これは社会科学、医学、工学などの様々な分野へ応用されることとなった。
こうして推計統計学は精緻な数学理論となった反面、応用には必ずしも適していないとの批判が常にあった。
これに呼応して、在来の客観確率を前提に置く統計学に対し主観確率を中心に据えたベイズ統計学が1950年代に提唱された。ベイズの定理に依拠する主観確率の考え方は母集団の前提を必要とせず在来統計学とは真反対の立場に立つため、その当時在来統計学派はベイズ統計学派のことを『ベイジアン』と名付けて激しく対立した。しかし主観確率には、新たに取得した情報によって確率を更新する機能が内包され、この点が大きな応用の道を開いた。いまや統計学では世界的にベイズ統計学が主流となり、先端的応用分野ではもっぱらベイズ統計学が駆使されている。
計量経済学、統計物理学、バイオテクノロジー、疫学、機械学習、データマイニング、制御理論、インターネットなど、あらゆる分野でベイズ統計学は実学として活用されている。20世紀末にはマルコフ連鎖モンテカルロ法など様々な革新的考案もなされ、旧来の統計学では不可能であったような各分野で多くの応用がなされるようになっている。これらベイズ統計学についての展開はいずれも計算環境の進歩と不可分である。
またこのほかにも、応用に重点を置いた様々な統計学的方法が発展している(オペレーションズ・リサーチと重複する部分も多い)。
一度信頼できる統計データが取れさえすれば統計学的分析は数学的に行えるが、信頼できる統計データの収集はとても難しい。実際、統計を取る人の主義主張によって統計値が大きく異なる事も多々あり、レーガン政権は当時アメリカにホームレスが30万人しかいないと主張したが、活動家達はその10倍の300万人いると主張した。[1]
たとえば質問の仕方一つで結果がガラリと変わってしまう。強姦に関するある調査で、女子大生に「男性からアルコールや薬物を飲まされて、望まない性交をした事がありますか」と質問する事で「女子大生の1/4が強姦された事がある」という結論を出したが、批判者達はこの調査で強姦体験者と認定された女子大生達を集めて再調査したところ、その3/4がその体験を強姦だと考えてない事が分かった。[1]
また暗数の考慮にも主観がつきまとってしまう。暗数とは「統計に出ない値」の事で、例えば強姦のような犯罪はそれがタブーであるがゆえに警察に届けない事も多くしたがって統計にあらわれない。したがって統計を正しく読み解くには暗数を考慮する必要があるが、統計値を多く見積もりたい人は意識的・無意識的に暗数を多く見積もってしまうだろうし、統計値を少なく見積もりたい人は逆に暗数を少なく見積もってしまうだろう。
正しい統計データから正しい統計操作を行ってもなお騙す事が可能である。ここ40数年で少年犯罪は1/4になっているが、「少年犯罪は急激に犯罪が増加している」事を主張したければ、最近10年分のデータだけを提示すればよい。(最近10年分では微増しているので)。[2]グラフの縦軸(=犯罪数の軸)をわざと縦長に書く事で犯罪数が急上昇しているように見せかける事も可能である。
またもっと簡単なミスで統計結果を勘違いしてしまう事がある。例えば「日本で犯罪件数がもっとも多い県は東京である」という統計を読むと、東京がもっとも危険な街であるように思えてしまうが、東京はもっとも人口が多いのでそれに比例して犯罪件数が多いのは自明である。どの県が危険なのかを知りたければ犯罪件数ではなく犯罪率を調べなければならない。
統計学はその成立の由来からして常に「実学」であり、近代社会以降世界に普及した「市場経済社会」を牽引した原動力とも言える学問である。 そのため世界的に見て、統計学は理学・工学・医学・社会学・人文学の垣根を越えて汎用性のある学問として研究・教育が重視されている。
日本においては「統計学科」を置く大学がない。これは統計学を軽んじているのではなく、学部ごとにそれぞれの分野へ特化された形で組み込まれていると考えることが出来る。近年では「情報科学」に関する学部が統計学の基礎研究・教育を担う位置づけとする大学も多い。
国立の統計学研究・教育機関としては、1944年に設立された統計数理研究所があり、AIC、数量化理論、確率微分方程式などの顕著な成果を生み出し、統計学研究を牽引している。(現在は情報・システム研究機構を構成する一機関)
社会生活の至る所で統計技術の適用が貢献できる場面がある以上、統計学とその適用方法を学習する上では社会の実態に即して頻繁に技法を適用してみることが重要であり、そのように出来るためには何よりまず統計処理を身近で制限無く実施できるような「統計処理環境」の備えが必要である。 PC・ソフトウェア・インターネット環境などのIT環境が急速に進化低廉化して普及したことで身近に統計処理環境を持ちうるようになり、なおかつ莫大な統計情報がインターネットを通じて公開されているため、研究・調査・学習の処理材料にも不自由しない。
実際21世紀に入って以降は、それまでの確率論と数理統計学を重点に置いたカリキュラムに加え、データを処理して求める答えに近づく「データ解析」のスキルが教育されるようになっている。
元来コンピュータを使った数値計算に際してはまず、IEEE 754規格にあるように丸め誤差が暗黙のうちに生じることや、有効数字の概念の認識が重要で、子供のころ算数で学んだような計算結果にはならないことがあることを知っておかねばならない。さらに統計計算では殊に重要な乱数についても、コンピュータ上で用いるのは疑似乱数であることや、良質な疑似乱数生成方式「メルセンヌ・ツイスタ」を備えた統計処理ソフトウェアが必ずしも多くないこと、さらに暗号論的乱数はさらに別の乱数概念であること、なども実は大切な基礎知識である。
人が得意とするパターン認識の力を積極的に用いるため、統計データの「グラフ化」が古来常套手段として用いられているが、ITの支援を得ることで大量のデータを様々な形にしかも瞬時にグラフ化(あるいは『見える化』)することが可能となった。そのためのグラフ作成ソフトも多数存在するが、その他の数値解析ソフトウェアや数式処理システム、そして殊に下記のような統計アプリケーションではグラフ化するための機能が充実している。一方、近年オフィスソフト機能で3Dグラフなど極端なグラフ装飾を施すことが横行しているが、この結果として遠近感や区間面積などから表示すべき真の数量とは異なった認識を受け手に与える事がある。これでは本来的な視覚化からは退行するばかりか、意図的に用いると受け手の認識を誤誘導する事も可能となり、特に注意を要する。
上記のように用いるソフトウェアごとに適用分野・目的・方法論・使用者との相性は異なる。そういった「統計処理環境」固有の特性などもふくめて、いかなる道具もそうであるように、数多く体験の機会を作るほかに理解の早道は無い。
なじみ深い表計算ソフト「Excel」ですら統計処理・グラフ表現機能を持っているので、誰でも手軽に統計処理入門体験は出来る。しかしExcelの計算の信頼性については常に議論が絶えない [3]。 近年では研究・教育機関が公開するオープンソースなフリーソフトの中からきわめて優秀な統計処理ソフトが多く育っており、プロプライエタリソフトの問題点顕在化とともに、統計技術資産の持続可能性という観点からもオープンソース統計ソフトの意義が再認識されつつある。
統計の研究・教育に適した代表的なフリーソフトウェア
統計計算に関連するソフトウェアのカテゴリ
|
|||||||||||||||||||||||||||||||||||||||||||||||||||
PageRank5以上の相互リンク
・相互リンクスクエア
(PageRank 5)
・相互リンク インプロス
(PageRank 5)
→便利!NINJA TOOLS
→FC2検索
用語
Wikipedia
YouTube