本学体育学部スポーツ医科学科の羽田克彦研究室(羽田、横井)、数理医科学研究センターの伊藤挙主任研究員(元・本学体育学部教授)、株式会社KYBメディカルサービス(小寺、佐藤、金子)による研究グループは、健康診断データから年齢を高精度に推定することに成功しました。
年齢が健診データに影響を与えることは良く知られていますが、逆に健診データから年齢を推定することも可能です。ここでは代表的機械学習アルゴリズムであるランダムフォレスト法を用いてスクリーニングデータから年齢を推定し、一般的スクリーニング検査に用いられる項目の中で加齢に重要なデータ項目を抽出することにより、加齢と健康問題におけるスクリーニングデータの役割を明らかにすることを目的としました。
KYBメディカルサービスを通じて得た全国約1万人の一般健康診査のデータを用いて、血液検査データから年齢を高い精度で推定することを試みました。性別を含む全71項目を使用した場合、9243件の訓練データセット(全体の80%)で高い精度R²=0.7010を達成しました。重要度の低い変数を削除してデータ項目を15に削減すると、R²はわずかに低下して0.6937となりました。データセット数が800未満、またはデータ項目数が7未満の場合、R²は0.6を下回りました。特に、閉経後の女性は閉経前の女性に比べ推定年齢が高くなる傾向が認められました。年齢を決定する重要度(Importance)が高い指標として、糖尿病と関連するヘモグロビンA1c、鉄代謝で重要なフェリチンなどが抽出されました。
これらの結果から、ランダムフォレストモデルを用いた血液データからの年齢推定(血液年齢)は、身体的加齢状態の評価に十分な精度を有することが明らかとなりました。血液年齢は、加齢と関連したさまざまな指標から算出される他の生物学的年齢と同様に、メタボリックシンドロームやフレイル症候群などの加齢関連問題を探索する上で非常に有望な手法であることが示されたことになります。
本研究は、日本学術振興会科学研究費助成事業(18K10858, 21H03327)の支援により行われました。
また、本研究論文は、臨床検査および分析に関する専門誌JCLA(Journal Of Clinical Laboratory Analysis)の表紙(Vol39(14))に採用されました。
研究論文タイトル:
Age Estimation From Blood Test Results Using a Random Forest Model
(ランダムフォレストモデルを用いた血液検査データからの年齢推定)

