LLM-jp-3 VILA 14B の公開
大規模言語モデル研究開発センター(LLMC)では、オープンかつ日本語に強い基盤モデルの開発を進めています。このたび、LLMCで開発された LLM-jp-3 13B をベースに、画像も入力できるように拡張したマルチモーダル基盤モデル LLM-jp-3 VILA 14B を公開いたしました。
このモデルは、大規模言語モデル llm-jp/llm-jp-3-13b-instruct、画像エンコーダ google/siglip-so400m-patch14-384、画像の特徴ベクトルを言語の空間に変換する2層の線形層(プロジェクタ)から構成されています。元々の大規模言語モデルのパラメータに加え、画像エンコーダと線形層のパラメータが追加されているため、約14B(140億)パラメータの基盤モデルとなります。モデルのアーキテクチャの設計では、先行研究である VILA (Lin et al., 2024) を参考にしました。LLMCではマルチモーダル基盤モデルの学習データとして、Common Crawlのウェブページのアーカイブから日本語のテキストと画像のペア・データやインターリーブ・データ(テキスト中の適切な箇所に画像が挿入されたデータ)を新たに開発いたしました。また、マルチモーダル基盤モデルの指示チューニングのため、OpenAI GPT-4oを用いて合成したデータを用いました。
LLMCでは画像言語モデル(VLM; Vision and Language Model)の日本語向け評価ベンチマークであるHeronBench、JA-VLM-Bench-In-the-Wild、JA-VG-VQA-500を用いて構築したモデルの評価を実施しました。その実験結果によると、LLM-jp-3 VILA 14B はパラメータ数が少ないながら、OpenAI GPT-4o に匹敵する性能を示すことが分かりました。なお、この評価実験では、LLMCで開発されている評価基盤 llm-jp-eval-mm を用いました。
LLM-jp-3 VILA 14B のモデル(重み)は Apache License 2.0 で配布していますが、このモデルを利用する際にはOpenAIの利用規約 (Terms of Use) を遵守する必要があります。この両方を遵守する限りは、応用や追加学習などに自由にご利用いただけます。
モデルの詳細については以下のリンク、および論文 (Sasagawa et al., 2024) をご覧ください。
また、このモデルの学習のために新たに構築したデータの詳細については、以下のリンクよりご覧ください。
参考文献
- Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han. 2024. VILA: On Pre-training for Visual Language Models. CVPR.
- Keito Sasagawa, Koki Maeda, Issa Sugiura, Shuhei Kurita, Naoaki Okazaki, Daisuke Kawahara. 2024. Constructing Multimodal Datasets from Scratch for Rapid Development of a Japanese Visual Language Model. arXiv:2410.22736.