LLM-jp-4-VL 9B betaリリース

著者: 杉浦一瑳

このたび、LLM勉強会マルチモーダルWGにて、視覚言語モデル LLM-jp-4-VL 9B beta を開発しました。 

本モデルは、日英合計約 180Bトークン(約3340万事例) で学習されています。 マルチモーダル事後学習における学習トークン数は Qwen3-VLの約1/10 にもかかわらず、日本語タスク平均で Qwen3-VL-8Bと同等の性能 を達成しました。  

また、学習データセット・評価基盤を公開することで、透明性・再現性の高い研究開発を実現しています。

図: 日本語タスクにおけるベンチマーク結果。LLM-jp-4-VL 9B betaは平均スコアでQwen3-VL 8Bとほぼ同等の性能を示した。*はJAMMEvalプロジェクトで不良事例の修正を施したデータセットを用いていることを示す。

公開リソース一覧

本リリースでは、以下のリソースを公開しています。

あわせて、以下のデータ基盤も新たに構築しました。  

  • Jagle: 約920万事例からなる日本語マルチモーダル学習データセット(寛容ライセンス)
  • JAMMEval: 既存の日本語ベンチマーク7つを精緻化した評価コレクション  

これらの公開により、日本語および日本文化に強いモデル開発のさらなる発展を期待しています。

モデルアーキテクチャ

本モデルは InternVL3.0 をベースとして設計しており、以下の3つのコンポーネントから構成されています。

図: LLM-jp-4-VL 9B betaのモデルアーキテクチャ。

高解像度画像への対応のため、動的タイル分割(Dynamic tiling)を採用しています。  
これは、入力画像のアスペクト比に応じて最適なグリッド分割を選択し、画像を複数のタイルに分割して処理する方法です。これにより、 固定サイズ縮小で失われる細部情報を保持しつつ、画像全体の構造も同時に理解することが可能になります。

図: 動的タイル分割の例 (InternVL3.5論文の図2を元に筆者作成)。

チャット形式には OpenAI Harmony を拡張した独自形式を採用しています。
具体的には、以下のように画像トークンを特殊トークンの<|image_start|>と<|image_end|>で囲みます:

“`

<|start|>system<|message|>{system_message}<|end|> 
<|start|>user<|message|><|image_start|><|image_pad|>…<|image_pad|><|image_end|>この画像に写っている動物の名前は?<|end|><|start|>assistant<|channel|>final<|message|>猫です。<|return|>   

“`

学習データ

学習には、以下の日英合計約3340万事例のデータを用いています。

Jagleは本研究で新たに構築したデータセットです。
画像テキスト対データ(例: WAON)やPDFコーパス(FinePDFs-Edu)などの多様なデータソースを基に、視覚言語モデルによるQA生成や翻訳を通じてVQAペアを生成しています。

図: Jagleデータセットの構築パイプライン。

なお、Qwen3-1.7Bを用いた小規模実験では、Jagle単独、FineVision単独、Jagle + FineVision混合、の3つの設定を比較した結果、混合データが全体の平均で最も高性能であることを確認しています。

図: Jagleのみ、FineVisionのみ、Jagle + FineVisionの各設定における性能推移 (出典: Jagle論文)。

学習設定

学習はシンプルさを重視し、単一ステージ学習で実施しました。  
バッチサイズは1,024、学習ステップ数は90,000ステップとしました。これは約3エポックに相当します。最大系列長は4,096トークンとしています。
モデルの初期化には、LLMおよびVision encoderには事前学習済みの重みを用い、プロジェクタはランダムに初期化しています。学習中はこれらすべての重みを更新しました。
学習率は事前に探索を行い、ピーク時の学習率としてLLMおよびVision encoderは2e-5、プロジェクタは1e-4に設定しました。 学習率スケジュールはWarmup–Stable–Decayを採用しました。最初の2,000ステップでウォームアップを行った後、学習全体の80%までは一定の学習率を維持し、その後は最終ステップ(90,000ステップ)においてピーク学習率の1/10となるよう線形に減衰させています。

以下がLLM部分の実際のLRスケジュールです。72,000ステップから減衰が始まっています。  

図: LLM部分の学習率スケジュール。

VLM化の学習の量をトークン数に換算すると、約180Bトークンになります。
学習コードはInternVL (https://github.com/OpenGVLab/InternVL)とTorchTitan (https://github.com/pytorch/torchtitan)を参考に実装しました。
モデルの学習に128枚のH200 GPUを用い、FSDPによる分散学習で実施しました。学習にかかった時間は225時間でした。

学習中の損失曲線

学習中は、学習損失およびタスク損失を継続的に観測しました。
タスク損失はベンチマークデータを用いて算出しています。
我々の実験では、タスク損失とベンチマークスコアは高い相関を示し、学習中のタスク損失のばらつきはベンチマークスコアに比べて小さいことを確認しました。
タスク損失を用いることで、学習初期段階から最終性能をある程度予測でき、ハイパーパラメータ探索の効率化に寄与しました。

以下の図は学習中の学習損失(左)とタスク損失(右)曲線です。ここでは10つの日本語ベンチマークを用いてタスク損失を計算しました。

図: 学習データセット、ベンチマークデータセットにおける損失曲線。

学習損失・タスク損失ともに減少し続けていることがわかります。

モデル評価

モデルの性能を多面的に評価するため、

  • 英語10タスク(AI2D, BLINK, ChartQA, DocVQA, InfoVQA, MMMU, OKVQA, RealWorldQA, ScienceQA, TextVQA)
  • 日本語10タスク(JAMMEval (CC-OCR-JA-Refined, CVQA-JA-Refined, Heron-Bench-Refined, JA-Multi-Image-VQA-Refined, JA-VLM-Bench-Refined, JDocQA-Refined, JGraphQA-Refined), BusinessSlideVQA, JMMMU, MECHA-ja)

の計20タスクで評価しました。評価には我々が構築した評価フレームワークsimple-evals-mm を使用しました。

比較対象として、Qwen3-VL-8B-Instruct、InternVL3.5-8B、Sarashina-2.2-Vision-3Bを用いました。

評価は各設定で3回実行し、その平均値を報告しています。

評価結果

以下に学習中の性能推移(全体平均、日本語タスク平均、英語タスク平均)を示します。

図: 全体平均・日本語平均・英語平均の性能推移。

学習を進めるにつれて性能が向上しており、90,000ステップ時点で、我々のモデルは日本語タスク平均においてQwen3-VL-8Bとほぼ同程度の性能となりました。

タスクごとの結果は以下に示します。

図: 日本語10タスクにおける性能推移。

図: 英語10タスクにおける性能推移。

 

学習終盤においても多くのタスクで性能が向上し続けているため、学習ステップ数をさらに増やすことで、性能がさらに向上すると考えられます。

全タスク平均スコアで最良の90,000ステップ時点のモデルをLLM-jp-4-VL 9B betaとして公開しました。

以下にLLM-jp-4-VL 9B betaおよびベースラインの各タスクの評価結果を示します。

日本語タスク

図: 日本語タスクの評価結果。

日本語タスク平均においてLLM-jp-4-VL 9B beta (70.8) はQwen3-VL-8B (71.1)とほぼ同程度の性能を示していることがわかります。特にJA-Multi-Image-VQA-Refined、JGraphQA-Refined、MECHA-ja、JMMMUは近いサイズのモデルと比較して最高性能を示しました。

英語タスク

図: 英語タスクの評価結果。

英語タスクはQwen3-VL, InternVL3.5にやや劣る結果となりました。

モデル出力の事例分析

ここでは、LLM-jp-4-VL 9B betaに画像とそれに対する質問を与えてモデルの出力の分析を行いました。
テスト用のデータは、主に著者が最近作成した画像を用いました。

以下はモデルが正しく答えた例です。

質問文: マルチモーダルWGで発表されたタイトルを全て抜き出してください
モデル出力: JAMMEval: 再アノテーションによる日本語VQA評価データセットの信頼性向上 (杉浦)
Omni-JDocVQA: 多種多様な文書を含んだ日本語視覚文書理解ベンチマークの構築 (梶川)
LayoutLMv3の日本語事前学習に関する検証 (柳澤)
ABMamba: 深層状態空間モデルに基づくMultimodal LLMによる動画画像理解 (八島)
JaWildText: 日本語文字認識のための実世界画像評価データセット (前田)

質問文: ツイート内容を全て抜き出してください
モデル出力: I’ve been using TorchTitan for a few months now and I’ve never felt better. I have more energy. My skin is clearer. My eyesight has improved.

質問文: この図における1タイルあたりの画像サイズを教えてください
モデル出力: 512 x 512

質問文: WAONのデータ事例数はいくらですか?
モデル出力: WAONのデータ事例数は155M(1億5500万件)です。

質問文: 画像エンコーダには何のモデルが用いられていますか?
モデル出力: SigLIP2 So400M
質問文2: LLMは?
モデル出力: LLM-jp-4 8B Instruct

質問文: 画像に含まれる文字を全て抽出してください

モデル出力: MYSTERY OF TUTANKHAMEN
ミステリー・オブ・ツタンカーメン
体感型古代エジプト展
ツタンカーメン・ミュージアム
横浜みなとみらいPLOT48
©WORLD SCAN PROJECT Inc.

質問文: ここに写っている建物はなんですか?
モデル出力: 東京駅の丸の内駅舎です。

質問文: この画像に写っている家紋のうち右側はどこの家紋か教えてください
モデル出力: 徳川

質問文: この画像の映画のタイトルと監督を教えて
モデル出力: タイトルは『千と千尋の神隠し』で、監督は宮崎駿です。

質問文: このキャラクターの名前はなんですか?
モデル出力: カオナシ

質問文: 日経平均株価の始値を教えて
モデル出力: 53239.59

日本語・英語テキストの読み取り能力や日本文化の知識を保有していることがわかります。

以下はモデルが誤った答えをした例です。

質問文: この絵画のタイトルと作者を教えて
正答例: 鳥獣人物戯画, 作者不明
モデル出力: タイトルは『百鬼夜行絵巻』で、作者は鳥山石燕です。
コメント: テイストが似た別の絵画と間違えている.

質問文: 日経平均株価の高値と低値の差を教えて 
正答例: 53355.40 – 52516.92 = 838.48
モデル出力: 138.48
コメント: 計算結果が異なっている

上記の事例分析から、モデルの知識の網羅性や、数値を抽出した上で計算を要する他段階推論の能力に課題があることがわかります。
この課題を解決する方法として、日本文化ドメインのデータや推論過程を含むデータを学習データに追加することが考えられます。

今後の課題

  • 日本語の回答が素っ気ない: 今回開発したモデルは日本語の回答が簡潔で短くなる傾向があります。英語で質問した際は流暢に返答するため、日本語の学習データに課題があることが示唆されます。画像を含まない日本語テキストだけの学習データや詳細な回答を含む学習データ、強化学習を導入すること等が考えられます。
  • 学習規模の拡大: LLM-jp-4-VL 9B betaが事後学習で用いたトークン数は約180B トークンであり、Qwen3-VLの約2Tトークンに比べて約10分の1です。学習終盤においても性能が伸び続けていることから、学習データ・学習規模をさらにスケールさせることで、性能が向上する可能性があります。
  • 言語タスクとマルチモーダルタスクの性能の両立: 以下に示すように、言語タスクの一部(MMLUやMATH)では事後学習の過程で性能が低下していることがわかります。言語タスクの性能を保持しつつマルチモーダル化する方法は今後の課題です。

図: 言語タスクの性能推移。

まとめ

本稿では、日本語に強い視覚言語モデル LLM-jp-4-VL 9B beta を紹介しました。 限られた学習トークン数で高い性能を達成し、さらにデータセットおよび評価基盤を公開することで、再現性の高い研究開発を実現しています。
今後は、学習規模の拡大およびデータ品質の改善を通じて、さらなる性能向上を目指します。

謝辞

Jagleの構築にあたり、国立国会図書館がWeb Archiving Project(WARP)を通じて収集したWebサイトURLリストを利用しました。
また、本研究は国立研究開発法人産業技術総合研究所および株式会社 AIST Solutions が提供する ABCI 3.0「開発加速利用」の支援を受けて実施しました。

引用

LLM-jp-4-VL-9B betaを引用する場合は以下をご利用ください。
“`bibtex
@misc{sugiura2026jaglebuildinglargescalejapanese,
      title={Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models}, 
      author={Issa Sugiura and Keito Sasagawa and Keisuke Nakao and Koki Maeda and Ziqi Yin and Zhishen Yang and Shuhei Kurita and Yusuke Oda and Ryoko Tokuhisa and Daisuke Kawahara and Naoaki Okazaki},

      year={2026},
      eprint={2604.02048},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2604.02048}, 
}

@misc{sugiura2026jammevalrefinedcollectionjapanese,
      title={JAMMEval: A Refined Collection of Japanese Benchmarks for Reliable VLM Evaluation}, 
      author={Issa Sugiura and Koki Maeda and Shuhei Kurita and Yusuke Oda and Daisuke Kawahara and Naoaki Okazaki},
      year={2026},
      eprint={2604.00909},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2604.00909}, 
}

“`