Instructions to use Defetya/ru-3b-openllama-transformers with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use Defetya/ru-3b-openllama-transformers with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("text-generation", model="Defetya/ru-3b-openllama-transformers")# Load model directly from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("Defetya/ru-3b-openllama-transformers") model = AutoModelForCausalLM.from_pretrained("Defetya/ru-3b-openllama-transformers") - Notebooks
- Google Colab
- Kaggle
- Local Apps
- vLLM
How to use Defetya/ru-3b-openllama-transformers with vLLM:
Install from pip and serve model
# Install vLLM from pip: pip install vllm # Start the vLLM server: vllm serve "Defetya/ru-3b-openllama-transformers" # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:8000/v1/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "Defetya/ru-3b-openllama-transformers", "prompt": "Once upon a time,", "max_tokens": 512, "temperature": 0.5 }'Use Docker
docker model run hf.co/Defetya/ru-3b-openllama-transformers
- SGLang
How to use Defetya/ru-3b-openllama-transformers with SGLang:
Install from pip and serve model
# Install SGLang from pip: pip install sglang # Start the SGLang server: python3 -m sglang.launch_server \ --model-path "Defetya/ru-3b-openllama-transformers" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "Defetya/ru-3b-openllama-transformers", "prompt": "Once upon a time,", "max_tokens": 512, "temperature": 0.5 }'Use Docker images
docker run --gpus all \ --shm-size 32g \ -p 30000:30000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_TOKEN=<secret>" \ --ipc=host \ lmsysorg/sglang:latest \ python3 -m sglang.launch_server \ --model-path "Defetya/ru-3b-openllama-transformers" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "Defetya/ru-3b-openllama-transformers", "prompt": "Once upon a time,", "max_tokens": 512, "temperature": 0.5 }' - Docker Model Runner
How to use Defetya/ru-3b-openllama-transformers with Docker Model Runner:
docker model run hf.co/Defetya/ru-3b-openllama-transformers
Модель openllama_3b_v2, secondstage pre-trained на датасете OSCAR (4k sequence length) и на вики датасете (8k sequence length). В сумме получилось 10-12B токенов. Достигает 3.2 значения перплексии на вики+оскар датасетах (на той части, которая не была показана модели).
Был осуществлен тест на mmlu-ru. Результаты таковы (справа - моя модель, слева - изначальная версия):
accuracy_total: 26.04 / 27.28 STEM: 25.51699654022026 / 26.910630806469058 humanities: 28.404847276301254 / 24.290275834763932 "other (business, health, misc.)": 25.39168024941998 / 29.81126559385235 social sciences: 24.83523489382067 / 28.101196261261098
Файлы с результатами sub_categories.csv (sub_categories_my.csv) тут.
Результаты показывают, что модель действительно чему-то научилась и лучше понимает русский язык. Будет осуществлено дальнейшее тестирование, а также обучение чатбота на датасетах Ильи Гусева (saiga).
Послеобучение было осуществлено на Google TPU v4-32 (TRC) с использованием EasyLM, на JAX/Flax.
- Downloads last month
- 16