統計の不備と、各種統計の「相関」の話

Executive Summary

統計の信頼性について疑問を呈した柳下毅一郎のツイートを、山形は一蹴した。が、その後勤労統計の集計方法の不備が露見した。ここから、この統計は捏造であり、それが相関しているならすべての統計が捏造だ、という極論を述べたブログが出た。しかし統計は、一かゼロか、完璧かすべて捏造か、というものではない。またその相互の関係も、機械的な関係があるということではない。信頼性の非常に広い幅の中で上下するだけなので、実際にどんな不備があってどのくらい影響を及ぼすのかを具体的に考えないと、妥当性のない陰謀論に流れてしまうだけだ。

はじめに

しばらく前に、柳下毅一郎がこんなツイートをした。

ぼくはそれに対して、こうリプライした。

ところが最近になって、ご存じの通り勤労統計の調査・集計方法に不備があったことが判明した。そして、それを受けて次のようなブログ記述が登場した。

d.hatena.ne.jp

柳下が疑問を呈したことが裏付けられた、というわけね。そして山形はまちがった統計を絶対視していてバカだね、そうでなければ統計全体が共謀して操作されていて大問題だね、というわけだ。

さてこれは困った代物だとぼくは思う。一かゼロかの非常に極端な見方をしているせいで、非常におかしな極論になってしまっている。それをここで、少し説明しよう。

まずは法華狼の主張を簡単に整理しよう。それは概ね、二つの部分に分かれる。

Part1: 「統計集計に不備があったので捏造だ!」

  • 柳下毅一郎は、統計を疑問視した。
  • そして実際に統計集計に不備が見つかったから、統計はまちがった捏造である。
  • よって柳下が正しかった。

Part2: 「統計は相関しているので全統計が捏造だ!」

  • 山形は、統計が相互に関連しているから絶対に正しいと述べた
  • でも実際には正しくなかった
  • よって、山形はバカだった。あるいは、山形が正しいなら相関している統計すべてがおかしい!!??

さて、これに類似した疑問について、ぼくはその後以下のようなツイートをした。

今回の記述は、これを一歩も出るものではないけれど、法華狼を含め、これが何を言っているのかわからなかった人もいるようだ。だから、長々と詳しく説明しよう。ぼくがこのツイートで書いたことを、「あたりまえじゃん」と思う人は、この先を読む必要はまったくない。

前提:統計はそもそも「絶対」はない

まずこの法華狼のブログ記述で、ぼくが統計を絶対視している、という題名には面食らった。統計が「絶対」というのが、そもそも意味不明だからだ。

簡単な例を見よう。日本の人口統計を見るなら、国勢調査が基本だ。でも、五年に一回しか行われない。それ以外に人口のデータとしては、住民基本台帳がある。各自治体の住民票を元に、その人口を出すものだ。これは毎年(いやもっと頻繁にでも)出せるから便利だ。でも、住民票は引っ越しても移さない人も多い。実際には住んでいない人が計上されたりする。だから精度は低い。実際、両者は一致しない。

ではこれは、国勢調査の人口が絶対であり、住民基本調査の人口データはまったくの捏造で使えないということか? もちろんそんなことはない。

まず国勢調査だって完璧なわけがない。国勢調査は、みんなへのアンケート調査だ。答えない人もいる。ウソを書く人もいる。以前オーストラリアでは、確か国勢調査の「宗教」の欄に「ジェダイ」と答えるという遊びが流行して、国民の相当数がジェダイ信徒、という結果になったことがあったはず*1

そして住民基本台帳ベースの人口は毎年(いやもっと)出る。年ごとの計画を作るならこのデータは無視できない。すると、実際の分析では、五年ごとに国勢調査の数字を使いつつ、その間の動きは住民基本台帳ベースの増加率を元にして補間する、なんてやりかたがある。遺漏があって絶対水準は少し怪しくても、その遺漏に一貫性があると想定できるなら、変化率はある程度信用できるはずだからだ。

そしていまのでわかるように、よいとかダメとかよいとかいうのも、すさまじく幅がある。山形は途上国援助が仕事なので、途上国の統計を山ほど見るけれど、まあピンキリだ。そしてトルストイナボコフではないけれど、よい統計はみな同じような形でよいけれど、ダメな統計は実に個性豊か。単純に能力不足だったり、そもそも調査しようがなかったり(識字率の低いところでは日本の国勢調査みたいなことはできない)、あるいは明らかに数字を作っていたり、場合によっては数字にあわせて現実を操作したり。

だから統計というのはそもそも、絶対的に信用できるものなんかではない。それぞれの統計を少しいじってみて、それをもとに絶対数まで信用できそうだなとか、それは無理だが変化率くらいは参考になる、各年ではノイズが多すぎるが五年平均くらいで見ればなんとか使える、変化率もあやしいが、符号くらいは何とか、というのをまずは見極める必要が出てくる。

そういうのを日常的にやっていると、そもそも「統計を絶対視」とかいう発想自体がないのだ。だいたい統計学というのはまさに、完全な情報がないところで信頼性をどう考えるか、という話なのだもの。

そして、その中でほぼ確実に言えること:

個人の勝手な印象<<(越えられない壁)<<ダメな統計<<優れた統計

Part1:労働統計の不備は、それがまったくの捏造だということか?

法華狼は、何か統計の集計(そしてその補正)に不備があった、というのを見て、つまりその統計がまったくの捏造だ、という結論にとびついた。

でも、上の「統計に絶対はない」という話がわかれば、そういうものではないことはわかるはずだ。完全に信頼できるか、まったく出鱈目かの1かゼロじゃないのだ。統計の信頼度には大きな幅がある。だから、統計に不備があったというだけで、「だから信用できない」という話にはならない。信用のほうにだって大きな幅があるのだ。どんな不備があって、結果がどう歪んだのか、というのを見ないで、不備だ捏造だ、と騒ぐのはまったくのピントはずれだ。

今回何がおかしかったかといえば、発端は全数調査であるはずのものが、三分の一ほどのサンプリング調査になっていた、ということだ。これはもちろん、よくないことだ。でもそれは、その結果がまったく捏造ということではない。サンプリング調査で十分な信頼性はだせる。ただもちろん「十分な」というのが、何に十分なのか、というのは使う人がきちんと考える必要がある。そのために、標本抽出理論というものがあるわけだ。

さらにその後、それに加える補正がおかしかった、という話も出てきている。標本調査なのをごまかそうとしてそれを三倍したりしてたとかいう話も伝わっている。はい、これも困ったことだ。厚労省、呆れたね。そしてその調査の資料を捨てていたという話に到っては、悪質にもほどがある。

が、それでも一応は調査は行われ、それに基づいた集計が行われている。まったんくの出鱈目ではない。補正する作業も進んでいるし、またその原因は人と予算が足りないことだったのも見えているので、まず何よりも統計専門の人を増やし、予算をつけないといけない。以前に比べて信頼性は下がったのは否定できない。でもそれは、100%だった信頼性が0になったという話ではない。

以上で、法華狼の主張の最初の部分は妥当性がないことが示せたと思う。統計に不備があったのは事実。でも、それがまったくの捏造だったということではない。

Part2:山形はすべての統計が相関しているので絶対だと述べたか? 一つ統計がねつ造されたらすべての統計はねつ造か?

法華狼の主張によれば、山形はすべての統計が連動しているから捏造はあり得ない、絶対なのだと言ったけど、でも実際に捏造されていた、すると連動しているはずの他の統計すべて捏造かもしれない、という。

これは、上と同じで、物事をあまりに機械的に理解しすぎている。そしてその結果として、なんだかあらゆるものが操作されているという変な陰謀論に堕している。

まず、今回の統計調査の不備がまったくの捏造とはちがう、というのは理解していただけたことを願いたい。したがって、そもそもこの理屈は成り立っていない。そもそも統計に「絶対」があるなんて、ぼくは思ってはいないのも前述のとおり。

さらに、ぼくは各種の統計が連動していて相互にチェックされていると述べた。でもそれは、あらゆる時点で完全に機械的に整合しているという意味ではない。変に数字を作ったりすればバレるよ、ということだ。

そんなことが本当に起こるんだろうか? もちろん起こる。それをまさに証明しているのが、今回の統計の不備の事件なのだ。たとえば、日本銀行厚労省の統計に関して早くから疑問視して、それを除外して様々な計算をしている。

www.nikkei.com

これは2018年11月、今回の騒ぎ以前の話だ。そしてGDP統計に関しても疑問があると述べているそうな。

ぼくが言っていたのはそういうことだ。統計の整合性を見ている人がいて、おかしな結果が続いていれば、疑問の声があがるのだ。厚労省の統計については、「そういえば変だった」「変化率しか使わなかった」といった見解が(後出しジャンケン的にではあるけれど)いくつか聞かれている。

もちろん、これはすぐには起こらない。分析の結果がずれてきたとき、それは実態の反映なのか、統計の何らかのバイアスによるものなのか、それとも故意の改変なのか? 統計の捏造でありがちなのは、あまりにきっちり他の統計に合わせすぎることだ。あと、なんか成長率が何年もまったく同じだったりとか。世の中はノイズが多いから、あまりに細かいところまで数字が合いすぎるのはかえっておかしい。少しずれるほうが自然だ。だから、統計を使うほうも、ちょっとずれたくらいでは変だとは思わない。

でも、しばらくすると、なんだか変じゃないか、ということなる。そしてそれが十分に根拠ある疑問であれば、今回のように調べ直され、場合によっては補正が行われることもある。場合によってはそのままで、「この期間は怪しい」という注意書きつきで使われることもあるだろう。でも、こうした活動を通じて統計の精度を保とうとする努力は続く。

法華狼の記述は、そこらへんを誤解している。ぼくがその後のツイートで、まさに機械的な相関があるわけではなく、ずれたらチェックするという話だといっているのを読んでも、それが意味することが理解していただけないようで、それは柳下の直感が正しかったのでは、と言っている。なぜそういう話になるのだろうか?

そして統計の精度をどう保つか、という話も、そう簡単ではない。たとえば、さっきのオーストラリアの統計で、いきなり国民の一割がジェダイ信徒になっちまった。さあどうしよう。それをどう処理すべきか? おふざけのインチキだから、そんなのはなかったことにして、残りの宗教の比率をジェダイ回答者にも割り振るべきだろうか? そんなおふざけをする連中は全部無宗教ということにしてしまおうか? それとも、調査の結果は結果として尊重し、お調子者の国民を呪いつつも、その数字をそのまま使うべきだろうか? これはホントに、その人の見方やデータの使途次第だ。

するとどういうことになるだろうか? 各種の統計は、相互に連動しているのであらゆる時点で絶対なのか? そんなことはない。でも変なことをしていれば、今回のように発覚する可能性は高まる。そして、相関があるからといって、他のあらゆる統計も捏造だなんてことにはまったくならない。その相関がおかしくなるというだけだ。したがって、二つ目の点でも法華狼の記述は妥当性がない。

結論

統計は、一かゼロか、完璧かすべて捏造か、というものではない。またその相互の関係も、相関は当然あるけれど、それは常にr=1.0の機械的な関係があるということではない。でも法華狼はそこを根本的に誤解しているために、まったく妥当性のない極端な見解を導いてしまっている。統計の集計不備は、もちろん信頼性や統計の連動性にある程度は影響する。しかも、もとの調査資料まで捨てちまったというのは、トホホな話だ。ついでに、ほかの統計も大丈夫かチェックは必要だろう(すでに始まっているみたいだ)。もっと人と予算をつぎ込もう。だけど、一つがおかしいから他のも連動してすべてでたらめ、なんて話はまったく出てこない。

おまけ:柳下毅一郎は正しかったのだろうか?

さて、法華狼の記述やこれに関するツイートを見ると、なんだか素人柳下の直感が、専門家山形のドグマに勝利した、と思いたい人もいるようだ。そして確かに、素人の直感は、ときには侮れない。でも、柳下の言ったことをきちんと見よう。いったい柳下は何を言っていただろうか?

今回柳下が「勤労統計はなんかおかしい」と言ったのであれば、それは柳下がすごかったといえるだろう。が、柳下のツイートは、どの統計がおかしいとか、どうおかしいと思うのか、なぜおかしいと思うのかも述べていない。そもそも、どこが統計をまとめているのかも誤解しているので、実際の具体的な統計が念頭にあるようでもなさそうだ。ツイートの雰囲気から見て、単にアベノミクスがそこそこ成果を挙げているような結果が出ているのが気に入らない、というだけの話だ。

それは、統計の誤りを素人の直感により鋭く見抜いたとはとても言えないんじゃないかな、とぼくは思う*2。そして当の柳下も、自分がそんな千里眼の持ち主だったのだと主張するほどは厚顔ではないと思うな。

だいたい……さっきも述べたように今回の統計の不備は、日銀もずっと指摘して、それもあってチェックした結果として露見したことだ。もし柳下が勘ぐっているみたいに安部の陰謀でアベノミクスマンセーを主張すべく統計が改ざんされているのだったら、まさにそのアベノミクスの先鋒として異常な金融政策を平気で続けている日銀が、それを指摘すること自体が変だと思わないのかな? 統計がそんなになんでも捏造できるなら、インフレ率もいじくって2%超にしないのはなぜだろうと思わないのかな? もちろん、多くの人はホントに統計のことなんか気にしているわけではなく、なんかリフレ派の悪口を言いたいとか、アベガーと言いたいとかいう程度のことなので、そういう整合性は特に考えてもいなさそうだ。それは不毛だと思うんだけどね。


クリエイティブ・コモンズ・ライセンス 山形浩生の「経済のトリセツ」 by 山形浩生 Hiroo YamagataCreative Commons 表示 - 継承 4.0 国際 ライセンスの下に提供されています。

*1:オーストラリアだけじゃなかった。世界中で流行ったみたい。でも、これで宗教について変な回答が増えた一方で、このジョークをやりたいだけのために国勢調査のアンケートにちゃんと回答してくれる人が増えたので、むしろ国勢調査の精度向上に役立った、というのは笑える。何が幸いするかわかったもんじゃない。

*2:素人が「専門家」を蹴倒す話は、ぼくは大好きだし、またそういうことは実際にある。だがそんなにない。それは偶然や様々な条件、そしてその素人の資質にも大きく依存する。そういう話は、昔こんなところに書いた。