データセット構造

スキーマ概要

データ型は、分析用のデータフレームまたはSQLデータベースに最適なものが選択されています。

フィールド名 推奨型 説明 サンプル値
Gender Categorical / String 患者の生物学的性別。 Male, Female
Age String (Mixed) 検査時点での患者の年齢。
注意: クリーニングが必要です(データフィールドを参照)。
000Y, 27Y, –
Modality String 使用された撮影方法。現在、表示されているすべてのエントリはX線です。 XRAY
Description String 部位と撮影方向/投影を示す記述ラベル。 Chest AP, L-spine LAT, right, BERIUM MEAL FT
Size_raw String UI上に表示されたファイルサイズ。 7.10 MB, 86.85 MB
Size_bytes Float / Int (派生) 分析用に標準的な数値単位に変換されたファイルサイズ。 7100000, 86850000

データフィールドと品質に関する注意事項

データセット内の各フィールドの詳細な内訳:

Gender

  • 型:カテゴリカル
  • 観察事項:現時点では標準的な二値分類(Male, Female)が確認されています。完全なセットでOtherまたはUnknownがないか確認してください。

Age

  • 型:文字列(解析が必要)
  • データ品質上の問題:
    • ヌル値:ダッシュ(-)で表されています。NaNまたはNoneに変換してください。
    • フォーマット:値には単位サフィックスが含まれています(例:000Y)。数値分析を行うには「Y」を除去する必要があります。
    • 外れ値:000Yは乳幼児(1歳未満)または不明な生年月日のプレースホルダーを示している可能性があります。

Modality

  • 型:カテゴリカル
  • 観察事項:サンプルはXRAYのみを示しています。このデータセットがMRIまたはCTを含むように拡張された場合、このフィールドはフィルタリングに重要になります。

Description

  • 型:テキスト
  • 観察事項:解剖学的領域(例:「Chest」「Pelvis」「L-spine」)と撮影方向/投影(例:「AP」は前後方向、「LAT」は側面)の両方を含んでいます。
  • 標準化:タイポや空白のバリエーションが存在します(例:Chest AP vs ChestSupine AP vs C-SpineAP)。NLPタスクには正規化が必要な場合があります。

Size

  • 型:文字列
  • 観察事項:単位を含んでいます(例:「MB」)。分析のためには、数値と単位に分割するか、単一単位(例:バイト)に正規化する必要があります。

使用方法と考慮事項

使用方法と考慮事項

主要ユースケース

  • 特定の解剖学的領域向けコンピュータービジョンモデルのトレーニング(例:「胸部X線分類」)。
  • データストレージ要件の分析(Sizeカラムを使用)。
  • 患者集団の人口統計分布分析。

プライバシーと倫理

  • 氏名は表示されていませんが、年齢(具体的な場合)・性別・特定のタイムスタンプ(後に追加された場合)の組み合わせにより、準識別情報となる可能性があります。公開前にHIPAA/GDPRへの準拠を確認してください。

前処理の必要事項

  • 年齢の正規化:000Yを0に、-をnullに変換します。
  • テキストのクリーニング:descriptionカラムから「部位」と「撮影方向」を分離します(例:「Chest AP」をBodyPart: Chest、View: APに分割)。

真のスピードでス
ケールを解き放つ

本番環境でスケーラブル・セキュア・測定可能なAI実行を実現します。