Distributed AI Edge.
One client — one compute.

Орталық суперкомпьютер арқылы желіге тәуелді сервистің орнына: әр клиенттің өзінде локалды edge-есептеу. Нәтиже: детерминирленген қуат, нөлдік “кезек жұқтыруы”, минималды кідіріс, қауіпсіздік және құнның болжамдылығы.

No shared queues

Deterministic SLA

Local data sovereignty

Linear scale per site

Equivalence headline

~3,170

SOILEGPT.CHAT edge (1×RTX A6000) ≈ 1 central “super-edge” (496×H200)

$15,000

per client edge (hardware unit cost)

clients/H200 where edge ≥ center per-client compute (proxy)

3 months

delivery-to-deployment window for on-prem edge rollout

Proof Pack 3,170 Equivalence Sharing Threshold Queues • Peaks • Network

See cost model See architecture proof

Interactive calculator

Formulas Cost derivation

Кабельдік модельде бір H200 GPU-ға қанша клиент (k) бір уақытта отырады — соны беріңіз. Біз сол сәттегі “клиентке шаққандағы” қуатпен салыстырамыз.

k = concurrent clients per H200

Edge unit price (USD)

—

Given: H200 FP16 Tensor = 1,979 TFLOPS RTX A6000 Tensor = 309.7 TFLOPS Cluster GPUs = 496 × H200 Ratio: a = 309.7 / 1,979 = 0.1565 (H200-equivalent per edge) Center per-client share: q_center = 1 / k Edge ≥ Center (per-client compute proxy) when: 0.1565 ≥ 1/k ⇒ k ≥ 6.39

Architecture comparison

Center → cable → client

Property	Implication
Shared GPU pool	Кезек, шектеу, көп-арендалы жоспарлау; бір клиенттің пікі — басқаларына әсер етеді.
Network as part of SLA	Кідіріс пен тұрақтылық каналға тәуелді; QoS/резерв/маршрутизация міндетті.
Peak coupling	“Noisy neighbor”: оқыс жүктемелерде деградация экспоненциалды сезіледі.
Operational stack	Тарификация/лимит/аудит, қауіпсіздік периметрі, NOC/monitoring, инциденттер.
Peripheral access	VPN/MPLS/edge gateways, identity, session control, encryption, compliance.

SOILEGPT.CHAT: one edge per client

Property	Implication
Dedicated compute	Клиенттің ресурсы тек соған арналған; кезек “жұқпайды”.
Local inference	Кідіріс төмен; интернет нашар болса да функционал сақталады.
Data sovereignty	Дерек клиент периметрінен шықпайды; саясат/реттеу тәуекелі азаяды.
Linear scaling	+1 клиент = +1 edge. Жоспарлау қарапайым, құны болжамды.
Deployment simplicity	Орнату/жаңарту/қызмет көрсету жергілікті; “үлкен орталық” тәуелділігі жоқ.

Бұл салыстырудың өзегі: “клиентке шаққандағы” қамтамасыз ету. Орталықта бұл үлес әрқашан бөлінеді; edge-та ол тұрақты және алдын ала белгілі.

72B Kazakh multilingual LLM

Неге 72B маңызды

72B technical notes

72B — бұл 72 миллиард параметр. Параметр — модельдің “білімі” мен тілдік қабілетін кодтайтын салмақтар. Параметр саны артқан сайын: контекстті ұстау, семантикалық дәлдік, көптілді сәйкестік және домендік күрделілік жақсырақ болады.

Тақырып	72B-тің практикалық мәні
Көптілділік	Қазақша ↔ орысша ↔ ағылшынша аралас диалогта мағынаны жоғалтпайды; code-switch тұрақтылығы жоғары.
Күрделі тапсырмалар	Ұзын нұсқаулықтар, көп-қадамды reasoning, құжатпен жұмыс — сапа өседі.
Салалық білім	Медицина/заң/өндіріс сияқты домендерде терминологияны сенімдірек ұстайды (дұрыс инференс стегімен).
“Super” әсер	Пайдаланушыға “ақылдырақ, тыныш, тұрақты” жауап беру — дәл осы масштабта сезіледі.

Model size concept: 72B params ≈ 72,000,000,000 learned weights. Quality drivers: (1) parameter count + (2) training data breadth + (3) inference stack + (4) latency stability. Edge advantage: stability of latency and isolation → perceived quality increases, even at same model.

Economics

Edge cost per client

Formulas

Берілген шарт: 1 edge = $15,000. Айырбас бағамы: 520 ₸ = $1.

$15,000

USD per client

₸7,800,000

KZT per client

KZT conversion: 15,000 USD × 520 = 7,800,000 KZT

What the center must still build

Workstream	Cost / complexity driver
Client access perimeter	VPN/MPLS, gateways, IAM, session control, encryption, audit.
Multi-tenant scheduler	Quota, fairness, isolation, batching policy, noisy-neighbor mitigation.
SLA engineering	Capacity planning, admission control, peak management, incident response.
Compliance & governance	Data flows, retention, logging, legal constraints, change management.
Rollout lead-time	Procurement → integration → testing → onboarding → operations.

Edge-та бұл блоктардың көбі клиенттің өз периметрінде “табиғи түрде” шешіледі: дерек шықпайды, ресурс бөлінбейді, кезек жоқ.

Timeline: 3 months to production

Delivery plan

Week	Outcome
1–2	Edge образ/құрастыру, модель стегі, локалды саясат, мониторинг минимум.
3–6	Пилот 3–10 клиент: орнату стандарты, қашықтан жаңарту, fallback, периметр тесті.
7–10	Масштабтау 10→N: өндірістік логистика, сервис регламенті, SLA “бір клиент — бір edge” қағидасы.
11–12	Қорытынды қабылдау: құжаттау, білім базасы, партиялық жеткізу, тұрақты релиз циклі.

Core claim: Edge rollout is bounded by logistics and standardization. Center rollout is bounded by network + multi-tenant orchestration + governance + peak engineering.

Mathematical backbone

One number that matters

Derivation All formulas

“1 супер-edge” ретінде орталық кластерді (496×H200) алсақ, тензорлық FP16 прокси бойынша: 1×H200 ≈ 6.39×RTX A6000, сондықтан 496×H200 ≈ 3,170×A6000.

Definitions: H200_FP16 = 1,979 TFLOPS A6000_Tensor = 309.7 TFLOPS GPU_count = 496 Per-GPU ratio: r = H200_FP16 / A6000_Tensor = 1,979 / 309.7 = 6.39 Cluster equivalence: E = GPU_count × r = 496 × 6.39 = 3,170 (rounded) Per-client compute parity threshold under sharing: Edge_share = 309.7 / 1,979 = 0.1565 H200 Center_share = 1/k H200 Edge ≥ Center ⇔ 0.1565 ≥ 1/k ⇔ k ≥ 6.39

Бұл — “клиентке шаққандағы” есептеу үлесінің дәл логикасы. Ол кезек, пик, жоспарлау және желі әсерін модельдемейді; бірақ дәл осы факторлар орталықта тәуекелді күшейтеді, ал edge-та олар құрылымдық түрде жойылады.

Distributed AI Edge.One client — one compute.