コンピュータビジョン

2025.11.21

👁️ コンピュータビジョン

画像処理の基礎から最新のVision Transformerまで – YOLO、Mask R-CNN、ViTで学ぶ実践的なCV技術

📖 コース概要

このコースでは、コンピュータビジョン（CV）の基礎から最新技術まで、25ステップで体系的に学習します。画像の前処理、CNN、ResNet、EfficientNetといった主要アーキテクチャから、YOLO・Faster R-CNNによる物体検出、U-Net・Mask R-CNNによるセグメンテーション、Vision Transformer（ViT）やCLIPといった最新技術まで、実装を通じて完全にマスターします。自動運転、医療画像診断、製造業の品質検査など、実務で即戦力となるスキルを習得できます。

【推奨環境】

Google Colab（推奨・インストール不要・GPU無料）

※ PyTorch、torchvision は最初から入っています
※ Detectron2（物体検出・セグメンテーション）はコース内でインストール案内

レベル

中級〜上級

学習時間

50時間

ステップ数

25ステップ

料金

無料

📋 前提条件（必須）

Pythonプログラミング基礎コース修了
Pythonデータ分析入門コース修了
数学基礎コース修了
機械学習入門コース修了
ディープラーニング基礎コース修了（特にCNN、転移学習）

🎯 学習戦略

理論30% : 実践70%のバランス
PyTorch中心（TensorFlow/Kerasも補足）
各STEPで実際のCVタスクを実装
最新のアーキテクチャ（ResNet、EfficientNet、Vision Transformer）
Kaggleコンペに挑戦（画像分類、物体検出など）
週5時間 × 10週間で完了

✨ 修了後のスキル

画像の前処理とデータ拡張の実装力
CNN、ResNet、EfficientNetなど主要アーキテクチャの理解
物体検出（YOLO、Faster R-CNN）の実装
セマンティックセグメンテーションの実装
Vision Transformerの理解
顔認識、姿勢推定などの応用
CVエンジニアとして即戦力
自動運転、医療画像診断などへの応用力

📚 Part 1: CVの基礎と画像処理（ステップ1-4）

コンピュータビジョンとは何か

CVの定義、応用分野、主要タスクを理解し、自動運転や医療画像診断など実務での活用事例を学びます。

CVの定義と応用分野
CVの歴史（手作り特徴量→深層学習）
主要なCVタスク（分類、検出、セグメンテーション）
実務事例（自動運転、医療画像、顔認識）

練習問題3問

⏱️ 1.5時間

画像の基礎知識

デジタル画像の表現、RGB・グレースケール、画像の読み込みと基本操作を実装します。

デジタル画像の表現（ピクセル、解像度）
RGB、RGBA、グレースケール
画像の読み込みと表示（PIL、OpenCV）
基本操作（リサイズ、クロップ、回転）

練習問題5問

OpenCVによる画像処理

フィルタリング、エッジ検出、モルフォロジー変換、色検出などOpenCVの実践的な技術を習得します。

フィルタリング（ブラー、シャープニング）
エッジ検出（Sobel、Canny）
モルフォロジー変換（膨張、収縮）
色検出とトラッキング

練習問題4問

データ拡張とバッチ処理

torchvision.transformsとAlbumentationsでデータ拡張を実装し、効率的なデータパイプラインを構築します。

データ拡張の重要性
torchvision.transforms（反転、回転、色調整）
Albumentationsライブラリ
カスタムデータセット作成とDataLoader

練習問題4問

⏱️ 1.5時間

🏗️ Part 2: 高度なCNNアーキテクチャ（ステップ5-8）

ResNetの理論と実装

残差学習とSkip Connectionの仕組みを理解し、ResNetの実装と転移学習を実践します。

残差学習（Residual Learning）
Skip Connection（ショートカット接続）
ResNetのアーキテクチャ（18、34、50、101、152）
事前学習モデルの転移学習

練習問題5問

⏱️ 2.5時間

DenseNetとInception

DenseNetのDense Connection、InceptionのマルチスケールフィルタなどAdvancedなアーキテクチャを学びます。

DenseNet（Dense Connection、Growth Rate）
Inception（GoogLeNet、Inception Module）
1×1 Convolutionの活用
各アーキテクチャの比較と実装

練習問題4問

EfficientNetとMobileNet

軽量モデルの設計原理を理解し、EfficientNet、MobileNet、モデル圧縮技術を実装します。

MobileNet（Depthwise Separable Convolution）
EfficientNet（Compound Scaling）
モデル圧縮技術（量子化、プルーニング、知識蒸留）
モバイル端末での推論

練習問題5問

アーキテクチャの選択と転移学習

タスク別のモデル選択基準、転移学習のベストプラクティス、timmライブラリの活用を学びます。

タスク別のモデル選択
精度 vs 速度 vs サイズのトレードオフ
転移学習のベストプラクティス
timm（PyTorch Image Models）ライブラリ

練習問題4問

⏱️ 1.5時間

🎯 Part 3: 物体検出（ステップ9-12）

物体検出の基礎

Bounding Box、IoU、NMSなど物体検出の基本概念と、PASCAL VOC・MS COCOデータセットを理解します。

物体検出とは（分類 vs 検出 vs セグメンテーション）
Bounding Boxの表現形式
IoU（Intersection over Union）
Non-Maximum Suppression（NMS）
データセット（PASCAL VOC、MS COCO）

練習問題4問

ステップ 10

R-CNN系モデル

R-CNN、Fast R-CNN、Faster R-CNNの進化の過程を理解し、Faster R-CNNで物体検出を実装します。

R-CNN（Selective Search、2段階検出）
Fast R-CNN（RoI Pooling）
Faster R-CNN（RPN、Anchor Box）
Mask R-CNN（セグメンテーション拡張）
実装：Faster R-CNNでの物体検出

練習問題5問

⏱️ 2.5時間

ステップ 11

YOLOシリーズ

リアルタイム物体検出の代名詞YOLOを学び、最新のYOLOv8でカスタムデータセットの訓練を実践します。

YOLO（You Only Look Once）の仕組み
1段階検出、グリッド分割
YOLOv3、YOLOv4、YOLOv5、YOLOv8の進化
Ultralytics YOLOv8の使い方
カスタムデータセットでの訓練

練習問題5問

⏱️ 2.5時間

ステップ 12

その他の検出手法と評価指標

SSD、RetinaNet、EfficientDetを学び、mAPなどの評価指標で物体検出モデルを正しく評価します。

SSD（Single Shot Detector）
RetinaNet（Focal Loss、クラス不均衡問題）
EfficientDet
評価指標（mAP、IoU閾値、Precision-Recall曲線）
モデルの比較と選択

練習問題4問

🎨 Part 4: セグメンテーション（ステップ13-15）

ステップ 13

セマンティックセグメンテーション

FCN、U-Net、DeepLab v3+など、ピクセル単位の分類を行うセグメンテーション技術を実装します。

セグメンテーションの種類（セマンティック、インスタンス、パノプティック）
FCN（Fully Convolutional Network）
U-Net（Encoder-Decoder構造、医療画像）
DeepLab v3+（Atrous Convolution、ASPP）
実装：U-Netでセグメンテーション

練習問題5問

⏱️ 2.5時間

ステップ 14

インスタンスセグメンテーション

Mask R-CNN、YOLACTなど、物体単位でマスクを生成するインスタンスセグメンテーションを学びます。

インスタンスセグメンテーションとは
Mask R-CNN（Faster R-CNNの拡張、RoIAlign）
YOLACT（Real-time Instance Segmentation）
評価指標（Mask IoU、Mask AP）
実践：Mask R-CNNの実装

練習問題4問

⏱️ 2.5時間

ステップ 15

パノプティックセグメンテーション

Things（物体）とStuff（背景）を統合的に扱うパノプティックセグメンテーションを理解します。

パノプティックセグメンテーションの概念
Things（物体）とStuff（背景）の統合
Panoptic FPN、UPSNet
Panoptic Quality（PQ）指標
応用：自動運転シーンの理解

練習問題4問

🚀 Part 5: Vision Transformerと最新技術（ステップ16-19）

ステップ 16

Vision Transformer（ViT）の理論

TransformerのCV応用であるViTの仕組みを理解し、パッチ埋め込みと位置埋め込みを実装します。

TransformerのCV応用
パッチ埋め込み（Patch Embedding）
位置埋め込み（Position Embedding）
Transformer Encoder
“An Image is Worth 16×16 Words”論文解説

練習問題5問

⏱️ 2.5時間

ステップ 17

ViTの実装と応用

HuggingFace Transformersで事前学習ViTを活用し、ファインチューニングとAttention可視化を実践します。

HuggingFace Transformersでのビジョンモデル
事前学習ViTの利用
ファインチューニング
Data-Efficient Image Transformers（DeiT）
Attention Mapの可視化

練習問題4問

ステップ 18

Swin TransformerとDETR

階層的ViTであるSwin Transformerと、End-to-end物体検出のDETRを学びます。

Swin Transformer（Shifted Window Attention）
階層的構造と様々なタスクへの応用
DETR（DEtection TRansformer）
End-to-endな物体検出、Bipartite Matching
Segment Anything Model（SAM）の紹介

練習問題4問

ステップ 19

CLIPとマルチモーダルAI

画像とテキストを同時に扱うCLIPを理解し、ゼロショット分類や画像検索を実装します。

CLIP（Contrastive Language-Image Pre-training）
画像とテキストの同時埋め込み
ゼロショット画像分類
画像検索（Image Retrieval）
CLIPベースの生成AI（DALL-E 2、Stable Diffusion概要）

練習問題5問

⏱️ 1.5時間

🎭 Part 6: 応用タスク（ステップ20-23）

ステップ 20

顔認識と顔検出

顔検出、顔認識、顔ランドマーク検出など、顔に関する技術を総合的に学びます。

顔検出（Haar Cascade、MTCNN、RetinaFace）
顔認識（FaceNet、ArcFace）
顔埋め込み（Face Embedding）と類似度計算
顔ランドマーク検出、感情認識
プライバシーと倫理的考慮

練習問題5問

ステップ 21

姿勢推定（Pose Estimation）

OpenPose、MediaPipe Poseでキーポイント検出と姿勢推定を実装し、スポーツ分析などに応用します。

姿勢推定とキーポイント検出
OpenPose（Part Affinity Fields）
MediaPipe Pose（リアルタイム推定）
3D姿勢推定
応用（スポーツ分析、フィットネスアプリ、AR/VR）

練習問題4問

ステップ 22

GANsと画像生成

GAN、DCGAN、StyleGAN、Pix2Pix、CycleGANなど、画像生成技術を理解し実装します。

GAN（Generative Adversarial Network）の基礎
DCGAN（Deep Convolutional GAN）
StyleGAN、StyleGAN2
Pix2Pix（条件付き画像生成）
CycleGAN（画像変換）、Diffusion Models概要

練習問題5問

⏱️ 2.5時間

ステップ 23

動画処理と行動認識

動画の扱い方、行動認識、光学フローなど、時系列画像データの処理技術を学びます。

動画の扱い方（フレーム抽出、OpenCV）
行動認識（Two-Stream Networks、3D CNN）
光学フロー（Optical Flow）
動画物体検出
応用（スポーツ分析、監視カメラ、ジェスチャー認識）

練習問題4問

⏱️ 1.5時間

🏆 Part 7: 総合プロジェクト（ステップ24-25）

ステップ 24

ガイド付きプロジェクト

自動車の損傷検出システムを構築し、データ収集からモデル訓練、評価、Webアプリ化まで完全な開発フローを体験します。

データ収集（車の画像データセット）
データ拡張とアノテーション
物体検出モデルの選択（YOLOv8）
モデルの訓練とチューニング
評価とmAP計算
（任意）Webアプリ化（Gradio）

総合プロジェクト

⏱️ 1.5時間

ステップ 25

独立プロジェクト

医療画像診断、製造業の不良品検出、リアルタイム顔認識システムなど、実務を想定したプロジェクトに挑戦します。

選択可能なプロジェクト
A: 医療画像診断（肺炎検出）
B: 製造業の不良品検出
C: リアルタイム顔認識システム
提出物：Notebook、評価結果、デモ動画

総合プロジェクト

⏱️ 1.5時間