Name: GaMS-Beta/GaMS3-12B-Multimodal API
Brand: Featherless.ai
Price: 10.00 USD
Availability: InStock
Author: GaMS-Beta

GaMS3-12B-Multimodal: Slovenian Vision Language Model

GaMS3-12B-Multimodal is a 12 billion parameter Vision Language Model (VLM) developed by GaMS-Beta. It is built upon the google/gemma-3-12b-it base model, enhancing its capabilities for multimodal understanding.

Key Capabilities

Multimodal Input: Processes both image and text inputs simultaneously.
Vision Question Answering: Specialized in answering questions based on visual content.
Slovenian Language Support: Fine-tuned specifically for the Slovenian language, enabling native understanding and generation.
Custom SFT Training: Developed using a custom Supervised Fine-Tuning (SFT) trainer on a curated instruction-tuning text-image Slovenian dataset.

Use Cases

Image Captioning in Slovenian: Generating descriptive text for images.
Visual Search: Answering queries about image content in Slovenian.
Educational Tools: Creating interactive learning materials that combine visuals and Slovenian text.
Content Moderation: Identifying and understanding visual content with Slovenian context.

Overview

GaMS3-12B-Multimodal: Slovenian Vision Language Model

Key Capabilities

Use Cases

Full Model Card (README)