ヒストグラムの区界はなぜ「測定単位の半分」を使うのか?具体例でわかる境界値の考え方

資格

ヒストグラムを作成するとき、最小値や最大値から単純に区間を設定するのではなく、「測定単位の半分」を加減して区界(きかい)を求めることがあります。この考え方は統計の初学者がつまずきやすいポイントですが、実は測定値が本来表している範囲を正しく扱うための重要なルールです。この記事では、なぜ測定単位をそのまま引くのではなく「÷2」するのかを具体例で解説します。

そもそも区界とは何か

ヒストグラムでは、実際に記録された値ではなく、その値が本来含んでいる範囲を考慮して区間を設定します。

例えば身長を1cm単位で測定した場合、「170cm」と記録された人の実際の身長は170.0cmちょうどとは限りません。

実際には169.5cm以上170.5cm未満の範囲にある値が四捨五入などによって170cmとして記録されていると考えます。

なぜ「測定単位÷2」を使うのか

測定単位が1cmの場合、その値は前後0.5cmの範囲を代表しています。

そのため、170cmという測定値の境界は169.5cmと170.5cmになります。

つまり測定値の真ん中を境界にするために、測定単位の半分である0.5を使うのです。

もし測定単位をそのまま引いて169cmを境界にすると、本来170cmとして記録されたデータの範囲を正しく表現できなくなります。

具体例で考えてみる

最小値が10で、測定単位が1の場合を考えます。

記録値 実際に表す範囲
10 9.5以上10.5未満
11 10.5以上11.5未満
12 11.5以上12.5未満

このとき第1区間の下側の境界は10−0.5=9.5になります。

こうすることで、10というデータが持つ範囲を正しく含めることができます。

測定単位をそのまま引くと何が起こるのか

仮に最小値10から測定単位1をそのまま引いて9を境界にしたとします。

すると第1区間は9〜10の範囲から始まることになり、実際には存在しない9.0以上9.5未満の領域まで含んでしまいます。

つまり、本来の測定データが表していない範囲を区間に入れてしまうことになるのです。

区界は「データがどこで丸められたか」を示すため、測定単位の半分が最も自然な境界になります。

測定単位が0.1の場合はどうなるか

同じ考え方は小数のデータにも適用できます。

例えば体温を0.1℃単位で測定し、36.5℃と記録された場合を考えます。

この値が表す実際の範囲は36.45℃以上36.55℃未満です。

したがって境界は0.1÷2=0.05を使って求めます。

測定単位が変わっても「半分を使う」という原理は変わりません。

まとめ

ヒストグラムの区界で「最小値−測定単位÷2」を使うのは、記録された値が実際には一定の範囲を代表しているからです。

測定単位1なら±0.5、測定単位0.1なら±0.05の範囲を表しているため、その中間点を境界として設定します。

もし測定単位をそのまま引いてしまうと、本来の測定範囲を超えた領域まで含んでしまい、データの分布を正しく表現できません。区界は「測定値の代表する範囲の境目」と考えると理解しやすくなります。

コメント

タイトルとURLをコピーしました