※本ブログは、米国時間 2025 年 2 月 26 日に公開された “Empowering innovation: The next generation of the Phi family” について、Copilot を使用して作成したサマリーです。
小型言語モデル (Small Language Model: SLM) である「Phi」ファミリーに新たに「Phi-4-multimodal」と「Phi-4-mini」が追加されました。現在、「Azure AI Foundry」、「HuggingFace」、「NVIDIA API Catalog」で利用が可能です。
Phi-4-multimodal: 音声・視覚・テキストを統合処理する革新的モデル
Phi-4-multimodal は、5.6 億のパラメータを持つマルチモーダル言語モデルで、音声、画像、テキストを同時に処理できるのが最大の特徴です。Phi-4-multimodal は単一のアーキテクチャで異なる入力モードを処理し、より自然で直感的な人間と機械のインタラクションを可能にします。
主な特徴
- 統合処理: 音声認識、画像理解、テキスト処理をシームレスに統合
- 効率的な推論: オンデバイスでの実行に最適化され、計算負荷を削減
- 競争力のある性能: 既存の大規模マルチモーダル AI に匹敵する処理能力
特に、数学、科学的推論や視覚データ処理など、幅広い用途に対応し、特にエッジデバイスやモバイル環境でのAI活用を加速させます。
Phi-4-mini: 軽量ながら高性能なテキスト処理モデル
Phi-4-mini は、3.8 億パラメータを持つ小型言語モデルで、特にテキストベースのタスクに強みを持ちます。計算コストを抑えつつ、長文処理、プログラミング支援、数学的推論、関数呼び出しなどの複雑な処理を高精度で実行可能です。
主な特徴
- 長文対応: 最大128,000トークンの処理が可能で、文書理解やコード解析にも適用可能
- 高精度な推論: 大規模言語モデルと比較しても優れたパフォーマンス
- エッジデバイス対応: ネットワーク接続が不安定な環境でも動作し、セキュアなアプリケーションに適応
幅広い活用シナリオ
- スマートデバイス: デバイス上でのリアルタイム翻訳や音声アシスタントの精度向上が可能
- 車載システム: 音声ナビゲーションや運転支援 AI の向上
- 多言語金融サービス: 金融レポートの自動生成、多言語翻訳、複雑な計算の自動化に活用
詳細については、原文 (英語) を参照ください。
—
本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。