هوش مصنوعی جدید شیائومی، مخصوص رباتها است
شیائومی از مدل هوش مصنوعی Xiaomi-Robotics-0 رونمایی کرد. این مدل متنباز با ۴٫۷ میلیارد پارامتر با هدف ترکیب درک بصری، فهم زبان و اجرای عملکرد لحظهای طراحی شده است. بهگفتهی شیائومی، مدل مورد اشاره بهعنوان پایهگذار هوش فیزیکی در تستهای شبیهسازی و دنیای واقعی رکوردهای جدیدی ثبت کرده است.
مدل هوش مصنوعی Robotics-0 برای حل یک حلقهی بسته در رباتیک طراحی شده است: ادراک، تصمیمگیری و اجرا. این مدل به رباتها کمک میکند که محیط اطراف خود را ببینند، دستورها را درک کنند، تصمیم بگیرند و آن را به درستی اجرا کنند. شیائومی تأکید دارد که این مدل موفق شده است درک کلی و کنترل دقیق حرکات را بهطور همزمان بهبود دهد.
مدل Xiaomi-Robotics-0 برای رسیدن به هدف خود از معماری Mixture-of-Transformers (MoT) استفاده میکند که دو بخش اصلی دارد. اولین بخش، مدل زبان بصری (VLM) است که بهعنوان مغز عمل میکند و وظیفهی درک دستورالعملهای انسانی و روابط فضایی تصاویر را دارد. این بخش می تواند به سؤالات بصری پاسخ دهد و اشیاء را شناسایی کند.
بخش دوم در مدل Xiaomi-Robotics-0، متخصص عمل نام دارد که با استفاده از ترنسفورمر دیفیوژن چندلایه (DiT) طراحی شده است. این بخش بهجای تولید یک عمل در هر زمان، مجموعهای از حرکات (Action Chunk) را ایجاد میکند که به کمک تکنیکهای تطبیق جریان، حرکتها را دقیق و روان نگه میدارد.
یکی از مشکلات رایج مدلهای VLA این است که هنگام یادگیری اعمال فیزیکی، میتواند تواناییهای درک اولیه خود را از دست بدهند. شیائومی با آموزش همزمان مدل بر روی دادههای چندمدلی و دادههای عملیاتی این مشکل را حل کرده است تا سیستم بتواند هم درک و هم بهطور مؤثر حرکت کند.
مدل Xiaomi-Robotics-0 به مسألهی تأخیر استنباط هم پرداخته است. تأخیر میان پیشبینیهای مدل و انجام عمل میتواند باعث وقفههای نامناسب در حرکت ربات شود. شیائومی با استفاده از استنباط ناهمزمان، حرکات ربات را پیوسته نگه میدارد و از تکنیک «پیشوند عمل تمیز» برای حفظ حرکت روان استفاده کرده است.


