dots.ocr：17億パラメータの新型オープンソースVLMが多言語文書解析でSOTA達成

新しいオープンソースの視覚言語トランスフォーマーモデル「dots.ocr」は、多言語文書解析と光学文字認識（OCR）を再定義する準備ができています。デジタル文書分析の複雑なプロセスを合理化するために開発されたdots.ocrは、レイアウト検出とコンテンツ認識の両方を単一の統合アーキテクチャに組み込み、100以上の言語にわたる膨大な数の構造化および非構造化文書を処理するための包括的なソリューションを提供します。

dots.ocrの核となるのは、テキストのようなシーケンシャルデータを扱うのに長けたAIモデルの一種であるトランスフォーマーベースのニューラルネットワークです。その特徴は、文書のレイアウト理解とテキスト抽出の両方を同時に実行できることであり、個別の、しばしば煩雑な検出とOCRパイプラインの必要性を排除します。この統合されたアプローチは、ワークフローを簡素化するだけでなく、ユーザーが入力プロンプトを調整するだけでモデルのタスクを適応させることを可能にします。17億のパラメータを持つこのモデルは、計算効率と堅牢なパフォーマンスのバランスを取り、幅広い実用的なアプリケーションに適しています。その柔軟性は入力タイプにも及び、画像ファイルとPDF文書の両方に対応し、低解像度または高密度な複数ページファイルでも品質を最適化するためのfitz_preprocessなどの高度な前処理オプションも含まれています。

このモデルの機能は、その広範な多言語サポートから始まり、非常に多岐にわたります。多様なデータセットで訓練されたdots.ocrは、主要な世界の言語からあまり一般的でないスクリプトまで、100以上の言語を処理でき、グローバルに繋がった世界でのその汎用性を強調しています。単なるテキスト抽出を超えて、このモデルはプレーンテキスト、表形式データ、さらには数式を抽出し、LaTeXのような形式でレンダリングするように設計されています。決定的に重要なのは、元の読み順と文書構造（表の境界、数式領域、画像配置を含む）を細心の注意を払って保持することです。これにより、抽出されたデータはソースに忠実であり続け、コンテンツとレイアウトに応じてJSON、Markdown、HTMLなどの構造化された形式で提供されます。

現代のドキュメントAIシステムとの直接比較評価において、dots.ocrは目覚ましい性能を示しました。例えば、Table TEDS精度で測定される表解析精度では、dots.ocrは88.6%を達成し、Gemini2.5-Proの85.8%を上回りました。同様に、テキスト編集距離で示されるテキスト抽出精度では、dots.ocrは0.032という低いエラー率を記録し、Gemini2.5-Proの0.055と比較して、文字認識の精度が高いことを示しています。このモデルは、数式認識や文書構造全体の再構築といった複雑なタスクにおいても、主要な競合他社の性能に匹敵するか、それを上回っています。

その魅力に加えて、dots.ocrは寛容なMITライセンスの下でリリースされており、オープンソースプロジェクトとして自由に利用できます。そのソースコード、包括的なドキュメント、および事前学習済みモデルはGitHubで容易にアクセスでき、容易な導入と統合を促進します。開発者は、pipやCondaのような標準的なパッケージマネージャーを使用してモデルを展開したり、コンテナ化された環境のためにDockerを活用したりできます。このモデルは、プロンプトテンプレートを介した柔軟なタスク構成をサポートしており、対話的な使用とバッチ文書処理のための自動化されたパイプラインへの統合の両方を可能にします。抽出された結果は、プログラムでの使用のために構造化されたJSONで提供され、必要に応じてMarkdownやHTMLのオプションも利用でき、検出されたレイアウトを検査するための可視化スクリプトによって補完されます。

要約すると、dots.ocrは高精度な多言語文書解析のための強力でアクセスしやすい技術ソリューションを提供します。レイアウト検出とコンテンツ認識を単一のオープンソースフレームワーク内で統合することで、限られた計算リソースしかない多様な本番環境での情報抽出に特に適した、堅牢で言語に依存しないツールを提供します。

dots.ocr：17億パラメータの新型オープンソースVLMが多言語文書解析でSOTA達成

関連記事

Matrix-Game 2.0：オープンソースAI動画生成器がDeepMindに挑戦

テンセントX-Omni：オープンソースAIがGPT-4oの画像生成に挑む

研究者がOpenAIのgpt-oss-20bを未加工・無検閲のベースモデルに変革