LLM-jp-3 VILA 14B の公開

November 20, 2024

大規模言語モデル研究開発センター（LLMC）では、オープンかつ日本語に強い基盤モデルの開発を進めています。このたび、LLMCで開発された LLM-jp-3 13B をベースに、画像も入力できるように拡張したマルチモーダル基盤モデル LLM-jp-3 VILA 14B を公開いたしました。

このモデルは、大規模言語モデル llm-jp/llm-jp-3-13b-instruct、画像エンコーダ google/siglip-so400m-patch14-384、画像の特徴ベクトルを言語の空間に変換する2層の線形層（プロジェクタ）から構成されています。元々の大規模言語モデルのパラメータに加え、画像エンコーダと線形層のパラメータが追加されているため、約14B（140億）パラメータの基盤モデルとなります。モデルのアーキテクチャの設計では、先行研究である VILA (Lin et al., 2024) を参考にしました。LLMCではマルチモーダル基盤モデルの学習データとして、Common Crawlのウェブページのアーカイブから日本語のテキストと画像のペア・データやインターリーブ・データ（テキスト中の適切な箇所に画像が挿入されたデータ）を新たに開発いたしました。また、マルチモーダル基盤モデルの指示チューニングのため、OpenAI GPT-4oを用いて合成したデータを用いました。

LLMCでは画像言語モデル（VLM; Vision and Language Model）の日本語向け評価ベンチマークであるHeronBench、JA-VLM-Bench-In-the-Wild、JA-VG-VQA-500を用いて構築したモデルの評価を実施しました。その実験結果によると、LLM-jp-3 VILA 14B はパラメータ数が少ないながら、OpenAI GPT-4o に匹敵する性能を示すことが分かりました。なお、この評価実験では、LLMCで開発されている評価基盤 llm-jp-eval-mm を用いました。

LLM-jp-3 VILA 14B のモデル（重み）は Apache License 2.0 で配布していますが、このモデルを利用する際にはOpenAIの利用規約 (Terms of Use) を遵守する必要があります。この両方を遵守する限りは、応用や追加学習などに自由にご利用いただけます。

モデルの詳細については以下のリンク、および論文 (Sasagawa et al., 2024) をご覧ください。

llm-jp/llm-jp-3-vila-14b

また、このモデルの学習のために新たに構築したデータの詳細については、以下のリンクよりご覧ください。

参考文献

Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han. 2024. VILA: On Pre-training for Visual Language Models. CVPR.
Keito Sasagawa, Koki Maeda, Issa Sugiura, Shuhei Kurita, Naoaki Okazaki, Daisuke Kawahara. 2024. Constructing Multimodal Datasets from Scratch for Rapid Development of a Japanese Visual Language Model. arXiv:2410.22736.