ヒストグラムを作成するとき、最小値や最大値から単純に区間を設定するのではなく、「測定単位の半分」を加減して区界(きかい)を求めることがあります。この考え方は統計の初学者がつまずきやすいポイントですが、実は測定値が本来表している範囲を正しく扱うための重要なルールです。この記事では、なぜ測定単位をそのまま引くのではなく「÷2」するのかを具体例で解説します。
そもそも区界とは何か
ヒストグラムでは、実際に記録された値ではなく、その値が本来含んでいる範囲を考慮して区間を設定します。
例えば身長を1cm単位で測定した場合、「170cm」と記録された人の実際の身長は170.0cmちょうどとは限りません。
実際には169.5cm以上170.5cm未満の範囲にある値が四捨五入などによって170cmとして記録されていると考えます。
なぜ「測定単位÷2」を使うのか
測定単位が1cmの場合、その値は前後0.5cmの範囲を代表しています。
そのため、170cmという測定値の境界は169.5cmと170.5cmになります。
つまり測定値の真ん中を境界にするために、測定単位の半分である0.5を使うのです。
もし測定単位をそのまま引いて169cmを境界にすると、本来170cmとして記録されたデータの範囲を正しく表現できなくなります。
具体例で考えてみる
最小値が10で、測定単位が1の場合を考えます。
| 記録値 | 実際に表す範囲 |
|---|---|
| 10 | 9.5以上10.5未満 |
| 11 | 10.5以上11.5未満 |
| 12 | 11.5以上12.5未満 |
このとき第1区間の下側の境界は10−0.5=9.5になります。
こうすることで、10というデータが持つ範囲を正しく含めることができます。
測定単位をそのまま引くと何が起こるのか
仮に最小値10から測定単位1をそのまま引いて9を境界にしたとします。
すると第1区間は9〜10の範囲から始まることになり、実際には存在しない9.0以上9.5未満の領域まで含んでしまいます。
つまり、本来の測定データが表していない範囲を区間に入れてしまうことになるのです。
区界は「データがどこで丸められたか」を示すため、測定単位の半分が最も自然な境界になります。
測定単位が0.1の場合はどうなるか
同じ考え方は小数のデータにも適用できます。
例えば体温を0.1℃単位で測定し、36.5℃と記録された場合を考えます。
この値が表す実際の範囲は36.45℃以上36.55℃未満です。
したがって境界は0.1÷2=0.05を使って求めます。
測定単位が変わっても「半分を使う」という原理は変わりません。
まとめ
ヒストグラムの区界で「最小値−測定単位÷2」を使うのは、記録された値が実際には一定の範囲を代表しているからです。
測定単位1なら±0.5、測定単位0.1なら±0.05の範囲を表しているため、その中間点を境界として設定します。
もし測定単位をそのまま引いてしまうと、本来の測定範囲を超えた領域まで含んでしまい、データの分布を正しく表現できません。区界は「測定値の代表する範囲の境目」と考えると理解しやすくなります。


コメント