データセット構造

スキーマ概要

データ型は、分析用のデータフレームまたはSQLデータベースに最適なものが選択されています。

フィールド名 推奨型 説明 サンプル値
Gender Categorical / String 患者の生物学的性別。 Male, Female
Age String (Mixed) 検査時点での患者の年齢。
注意: クリーニングが必要です(データフィールドを参照)。
027Y, 050Y, 007M
Modality String T使用された撮影方法。現在、表示されているすべてのエントリはCT(コンピューテッドトモグラフィ)です。 CT
Description String 解剖学的領域・プロトコル詳細・造影相・患者カテゴリを含む記述ラベル。 Abdomen^AV_Abd_Arterial_Venous_CE (Adult), Head^AV_Head_Plain_Trauma (Adult)
Size_raw String UI上に表示されたファイルサイズ。 264.56 MB, 33.23 MB
Size_bytes Float / Int (派生) 分析用に標準的な数値単位に変換されたファイルサイズ。 264560000, 33230000

データフィールドと品質に関する注意事項

データセット内の各フィールドの詳細な内訳:

Gender

  • 型:カテゴリカル
  • 観察事項:現時点では標準的な二値分類(Male, Female)が確認されています。完全なセットでOtherまたはUnknownがないか確認してください。

Age

  • 型:文字列(解析が必要)
  • データ品質上の問題:
    • 単位の混在:年齢値は年(例:027Y、050Y)と月(例:007M)の異なる単位を使用しています。分析のためにすべての値を共通単位に変換するための標準化が必要です。
    • 先頭ゼロ:年齢値はゼロ埋めされています(例:27歳を027Y、7か月を007Mと表記)。解析後に整数に変換してください。
    • 年齢範囲:表示サンプルは乳幼児(7か月)から高齢者(82歳)までの年齢を示しており、小児および成人研究に適した包括的な全年齢データセットです。
    • 小児に関する考慮:月単位の年齢が含まれることは、小児・乳幼児症例が含まれていることを示しており、解剖学的特徴や放射線量への考慮が異なるため別途分析が必要な場合があります。

Modality

  • 型:カテゴリカル
  • 観察事項:サンプルはCT(コンピューテッドトモグラフィ)のみを示しています。CTはX線撮影とコンピュータ処理を組み合わせて詳細な断層画像を生成し、単純撮影と比較して優れた解剖学的詳細を提供します。

Description

  • 型:テキスト
  • 観察事項:解剖学的領域(Abdomen、Head、Thorax)・撮影プロトコル詳細(Plain、Arterial、Venous、CEは造影)・スキャンタイプ(Trauma、HRCTは高分解能CT)・患者カテゴリ(Adult)を含む高度に構造化された情報を含んでいます。解剖学的領域とプロトコル詳細の間の区切り文字としてキャレット(^)を使用しています。
  • プロトコル情報:記述は多相検査(例:「AV_Abd_Arterial_Venous_CE」は動脈相と静脈相の両方の造影を示す)を示しており、包括的な血管および臓器評価に不可欠です。HRCT(高分解能コンピューテッドトモグラフィ)は専門的な肺実質撮像を示します。
  • 標準化:解剖学的領域^プロトコル詳細パターンに従った適切に構造化された命名規則です。「^」区切り文字を使用して解剖から プロトコルを分離し、アンダースコアを使用してプロトコル詳細をさらに解析します。分析のために造影相情報(Plain、Arterial、Venous、CE)を抽出します。

Size

  • 型:文字列
  • 観察事項:サンプルのファイルサイズは約33.23 MBから264.56 MBの範囲です。単位(例:「MB」)を含みます。分析のためには、数値と単位に分割するか、単一単位(例:バイト)に正規化する必要があります。
  • ファイルサイズ分布:CTデータセットは、単純撮影(DX/CR)や場合によってはMRIと比較して著しく大きなファイルサイズを示します。これはCTの体積的な性質(通常1検査あたり200〜800スライス)と高い空間分解能を反映しています。多相造影検査(動脈相+静脈相)はそれに比例してファイルサイズが大きくなります。
  • ストレージへの影響:多相造影腹部CTは1検査あたり200〜400+ MBを生成する可能性があります。CTのストレージおよび帯域幅要件は他のモダリティより著しく高く、PACSインフラ計画において重要です。

使用方法と考慮事項

コンピューテッドトモグラフィ(CT)
の技術的特性

画像取得技術

現代の多列検出器CT(MDCT)システムは、回転するX線管と検出器アレイを使用して体積データを取得します。現行世代のスキャナーは64〜320列の検出器を備え、5〜20秒での全身撮像を可能にします。X線管が患者の周りを360°回転しながらテーブルが連続的にガントリを通過し、ヘリカル/スパイラル取得パターンを形成します。

断層撮像

CTは体の真の軸位断層スライス(通常0.5〜5mm厚)を生成し、単純撮影に固有の重複投影問題を解消します。データは追加被ばくなしに任意の撮像面(軸位・冠状・矢状・斜め)および様々なスライス厚で再構成できます。

造影プロトコル

静脈内ヨード系造影剤により多相撮像が可能となり、血管と臓器灌流を評価します。動脈相(注射後25〜35秒)は動脈の可視化と過血管性病変の検出に最適です。静脈/門脈相(60〜80秒)は実質臓器の最適な増強を提供します。遅延相(3〜10分)は尿路と病変のウォッシュアウトパターンを評価します。

ハウンスフィールド単位(HU)

CT画像は定量的であり、組織密度はハウンスフィールド単位で測定されます。空気 = -1000 HU、水 = 0 HU、骨 = +400〜+1000 HU。この標準化された密度スケールにより、自動セグメンテーション・病変特性評価・骨密度測定が可能です。ウィンドウ/レベル設定により特定の組織(肺ウィンドウ・軟部組織ウィンドウ・骨ウィンドウ)の可視化を最適化します。

放射線量への考慮

CTは単純撮影より高い放射線量を照射しますが、はるかに多くの診断情報を提供します。典型的な実効線量:頭部CT 1〜2 mSv、胸部CT 5〜7 mSv、腹部/骨盤CT 10〜15 mSv。現代の線量低減技術には自動露出制御・逐次再構成アルゴリズム・特定適応症向けの低線量プロトコルが含まれます。

臨床応用

CTは外傷評価(頭部・胸部・腹部)・急性腹痛・肺塞栓症・脳卒中評価・がんのステージング・血管撮像の主要モダリティです。造影なし頭部CTは急性外傷と脳卒中の第一選択検査です。胸部HRCTは間質性肺疾患のゴールドスタンダードです。多相腹部CTは肝腫瘤・腎腫瘤・膵疾患を評価します。

主要ユースケース

  • 複数の解剖学的領域にわたる臓器体積セグメンテーション(肝臓・腎臓・肺・膵臓)と病変検出のための3D畳み込みニューラルネットワークのトレーニング。
  • 頭蓋内出血・気胸・実質臓器損傷・骨折の自動検出を含む外傷トリアージ向けAIモデルの開発。
  • 時系列モデリングを必要とする腫瘍特性評価・血管マッピング・灌流評価のための多相造影分析。
  • 骨密度・肝脂肪定量化・肺気腫スコアリング・冠動脈石灰化スコアリングのためのハウンスフィールド単位測定を活用した定量的画像バイオマーカー開発。
  • 異なる解剖学的比率・造影プロトコル・子供の放射線量最適化を考慮した年齢層別データを使用した小児専用モデル開発。
  • 補完的な診断情報とモデル汎化研究のためのCTとMRI・PET・超音波を組み合わせたクロスモーダル学習。

プライバシーと倫理

  • 氏名は表示されていませんが、年齢・性別・特定の解剖学的プロトコル(特に外傷検査)・タイムスタンプの組み合わせにより、準識別情報となる可能性があります。公開前にHIPAA/GDPRへの準拠を確認してください。
  • CT画像は、特に頭部CTでの顔面構造など、広範な識別可能な解剖学的特徴を含みます。頭蓋CTデータセットには顔消去アルゴリズムを適用してください。頭頸部CTで見える歯列パターンは識別可能であり、マスキングが必要な場合があります。
  • DICOMファイルに埋め込まれたメタデータには、患者識別子・技師のメモ・その他のPHIが含まれる場合があります。基本的な人口統計フィールドを超えた包括的なDICOMヘッダー匿名化が不可欠です。

前処理の必要事項

  • 年齢の処理: 年齢値を解析して数値と単位を抽出します。すべての年齢を一貫した単位(月または年)に変換します。混合フォーマットを処理:「Y」または「M」サフィックスを除去し、先頭ゼロを削除します。age_numericとage_unit列を作成します。年齢グループを含む分析では、月を年に変換(007M → 0.58年)またはその逆を行います。
  • 説明フィールドの解析: 「^」区切り文字を使用してDescriptionフィールドをanatomical_regionとprotocol_detailsに分割します。protocol_detailsをさらに解析して抽出します:imaging_technique(Plain、CE)、vascular_phase(Arterial、Venous)、scan_type(Trauma、HRCT)、patient_category(Adult、Pediatricが存在する場合)。この構造化された解析により、標的モデルトレーニングのための特定プロトコルによるフィルタリングが可能になります。
  • 造影相の抽出: プロトコル詳細から造影相(Plain/非造影、Arterial、Venous/門脈相、Delayed)を特定します。これは相固有の病理学的外観を学習するモデルと、多相研究における時系列分析にとって重要です。
  • サイズの正規化: サイズ文字列を数値と単位(MB)に分離して解析します。一貫した計算分析のためにバイトに変換します。CTファイルサイズは画像/スライス数と使用される再構成アルゴリズムと相関することに注意してください。
  • 小児/成人の層別化: 年齢データを使用して小児(18歳未満)と成人(18歳以上)のコホートに層別化します。解剖学的特徴・造影量・放射線プロトコルが年齢グループによって著しく異なるため、さらなる小児細分類(乳幼児 1歳未満、小児 1〜12歳、青年 13〜17歳)を検討してください。

真のスピードでス
ケールを解き放つ

本番環境でスケーラブル・セキュア・測定可能なAI実行を実現します。