AI・生成AI

HOME
AI・生成AI
基盤モデル (Foundation Model) の開発概要

1月 30, 2025 / 最終更新日時 : 1月 30, 2025 Koichi Tsujino AI・生成AI

基盤モデル (Foundation Model) の開発概要

基盤モデルの開発は、以下のプロセスを経て進められます。
特に近年のLLM (大規模言語モデル) は Transformer アーキテクチャ をベースにしており、学習には 教師なし学習、Instruct (SL、SFT)、強化学習 (RLHF) などが組み合わされます。

1. 事前学習 (Pretraining)

🔹 目的: 大規模なデータセットから言語の一般的なパターンを学習する
🔹 技術: 自己教師あり学習 (Self-Supervised Learning)
🔹 手法: マスク付き言語モデル (MLM)、自己回帰型 (Auto-Regressive, AR)

(1) Transformer アーキテクチャの採用

Self-Attention (自己注意機構): 文脈の依存関係を学習
Multi-Head Attention (多頭注意機構): 多様な関係性を並列に学習
Feedforward Networks (FFN): 非線形変換で表現能力を強化
Positional Encoding: シーケンス情報を補完

代表的な事前学習モデル

BERT (MLM型, Encoderベース): 文中の一部をマスクし、正しい単語を予測
GPT (AR型, Decoderベース): 次の単語を自己回帰的に予測
T5, UL2 (Seq2Seq型, Encoder-Decoderベース): 入力と出力の関係を学習

(2) 事前学習のデータ

Webデータ (Common Crawl, Wikipedia, BooksCorpus)
コードデータ (GitHub, Stack Overflow)
論文 (arXiv, PubMed)
会話データ (Reddit, SNS)

(3) 計算資源

大規模クラスタ (TPU Pod, NVIDIA H100, A100)
分散学習 (DeepSpeed, FSDP, Megatron-LM)

2. 指示調整 (Instruction Tuning, Instruct)

🔹 目的: ユーザーが意図した指示に従うように調整する
🔹 技術: 教師あり学習 (Supervised Learning, SL)
🔹 データ: 高品質な人間アノテーションデータ (例: OpenAIのGPT-4-turbo, LLaMAのInstructモデル)

手法

SFT (Supervised Fine-Tuning)
- 人間が作成した「入力-出力」ペアを用いてファインチューニング
- 例: 質問応答 (QA)、要約、翻訳など
Instruction Dataset の活用
- OpenAIのInstructGPT、AnthropicのClaude、MetaのLLaMAなどで活用
- SuperNI、FLAN (Google) などの大規模指示データセット

3. 強化学習 (Reinforcement Learning, RL)

🔹 目的: モデルの出力をより自然で人間らしくする
🔹 技術: 強化学習 (Reinforcement Learning)
🔹 手法: 人間のフィードバックに基づく強化学習 (RLHF)

(1) 人間フィードバック (Human Feedback)

ランキングデータの収集
- モデルが複数の回答を生成し、人間が「良い順」に並べる
- 例: OpenAIのGPT-4では、100万人以上のアノテータが関与
報酬モデル (Reward Model, RM) の学習
- 人間のランキングを教師データとして「良い応答を高評価」するモデルを学習
- 目的関数: 報酬関数 R(θ) の最適化
PPO (Proximal Policy Optimization) による最適化
- 事前学習モデル (π_θ) を報酬モデルに基づいて強化学習
- 過学習を防ぐためにKLペナルティを適用

RLHFを活用したモデル

GPT-3.5 / GPT-4 (OpenAI)
Claude (Anthropic)
Bard / Gemini (Google DeepMind)

4. 推論 (Inference) と最適化

🔹 目的: 高速・低コストで推論を実行する
🔹 技術: 量子化、蒸留、キャッシュ最適化

(1) 量子化 (Quantization)

モデルサイズを削減し、計算効率を向上
方法:
- FP32 → FP16 / BF16
- FP16 → INT8 / INT4 (4-bit量子化, 例: GPTQ, AWQ)

(2) 知識蒸留 (Knowledge Distillation)

大規模モデルを小規模モデルへ圧縮
例: DistilBERT, TinyLLaMA

(3) 推論最適化

キャッシュ活用: KV Cache (Attention計算の効率化)
分散推論: DeepSpeed, vLLM, TensorRT, ONNX Runtime

まとめ

フェーズ	目的	主要技術
事前学習 (Pretraining)	一般的な知識を学習	Transformer, 自己教師あり学習
指示調整 (Instruct Tuning)	指示に従う能力を強化	教師あり学習 (SFT)
強化学習 (RLHF)	人間の好みに適応	報酬モデル、PPO
推論最適化	高速・低コスト化	量子化、キャッシュ、知識蒸留

基盤モデルの開発は「大規模データから学習 → 人間の指示に従う調整 → 強化学習で洗練 → 推論の最適化」という流れになっています。特に Instruct Tuning や RLHF の導入により、より自然な対話や文生成が可能になった のが近年の進化のポイントです。

※ この記事の一部は OpenAI の ChatGPT による生成です。

カテゴリー: AI・生成AI

AI・生成AI

11月 10, 2024

AI・生成AI

2月 2, 2025

基盤モデル (Foundation Model) の開発概要

1. 事前学習 (Pretraining)

(1) Transformer アーキテクチャの採用

(2) 事前学習のデータ

(3) 計算資源

2. 指示調整 (Instruction Tuning, Instruct)

3. 強化学習 (Reinforcement Learning, RL)

(1) 人間フィードバック (Human Feedback)

4. 推論 (Inference) と最適化

(1) 量子化 (Quantization)

(2) 知識蒸留 (Knowledge Distillation)

(3) 推論最適化

まとめ

PyMuPDF4LLMがあればPDFデータ抽出は簡単！LLMと組み合わせた使い方

DeepSeekに関する議論