Armino AI 解决方案简介 =========================================== :link_to_translation:`en:[English]` 概述 --------------------------------- Armino AI 解决方案是博通集成电路(上海)股份有限公司基于 Armino SMP 架构开发的智能 AI 设备解决方案。该方案提供了完整的端到云、云到大模型的 AI 交互能力,支持多种大语言模型接入,为开发者提供快速构建智能 AI 设备的完整开发框架。 设计理念 --------------------------------- Armino AI 解决方案采用"端-云-模型"三层架构设计: - **端侧(Device)**: 基于 BK7258 芯片的智能设备,负责音视频采集、本地处理、用户交互 - **云端(Cloud)**: BK/声网RTC/火山RTC等服务器,负责音视频数据传输和路由 - **模型侧(AI Model)**: 支持多种大语言模型(OpenAI、豆包、DeepSeek 等),提供 AI 对话和图像识别能力 核心特性 --------------------------------- 1. 多模态交互 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, - **语音交互**: 支持语音唤醒、语音识别、语音合成,提供自然的人机对话体验 - **视觉交互**: 支持双屏显示(SPI LCD X2),提供丰富的视觉反馈和情绪表达 - **图像识别**: 支持实时图像采集和识别,可切换大语言模型和图像识别大模型 2. 实时音视频通信 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, - **低延迟传输**: 支持低延迟音视频传输 - **多编码格式**: - 视频:H.264、JPEG - 音频:G.711A/U、G.722、OPUS、PCM - **智能码率控制**: 支持自适应带宽估计和码率调整 3. 端侧音频处理 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, - **AEC(回声消除)**: 消除扬声器回音,提升语音识别准确率 - **NS(噪声抑制)**: 抑制环境噪声,改善语音质量 - **KWS(关键词唤醒)**: 支持自定义唤醒词,实现本地唤醒 - **提示音播放**: 支持多种事件提示音,提升用户体验 4. 多模型支持 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, - **大语言模型**: 支持 OpenAI、豆包、DeepSeek 等主流大语言模型 - **图像识别模型**: 支持图像识别和分析 - **灵活切换**: 支持运行时切换不同模型,满足不同应用场景 5. 完整的外设支持 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, - **显示**: 双 SPI LCD 屏幕(GC9D01 160x160) - **输入**: 麦克风、按键、陀螺仪、NFC - **输出**: 扬声器、LED 灯效、震动马达 - **存储**: SD NAND 128MB - **电源**: 锂电池、充电管理(ETA3422) - **摄像头**: DVP 摄像头(gc2145) 系统架构 --------------------------------- .. rubric:: BK AI 与 BK AVDK SMP 的关系 本仓库所交付的 BK AI 解决方案与底层平台 BK AVDK SMP(Armino SMP SDK)之间的分工与依赖关系如下: #. **开发与定位**:BK AI 是在 BK AVDK SMP 之上实现的场景化解决方案,聚焦 AI 业务逻辑、RTC 与云端大模型对接等;芯片、RTOS、驱动与网络协议栈等由 BK AVDK SMP 提供。 #. **构建与编译**:BK AI 不包含独立构建系统。固件编译、工具链、Kconfig 与工程生成等依赖 BK AVDK SMP 提供的构建环境(开发中需将 SMP SDK 路径通过 ``SDK_DIR`` 等方式指向 BK AVDK SMP 工程)。 #. **代码边界**:BK AI 仓库主要提供解决方案与业务实现代码,不包含硬件驱动、RTOS、内存管理、Wi-Fi/蓝牙协议栈等底层实现;若需使用上述能力,应通过 BK AVDK SMP 已提供的接口与组件进行调用与集成。 下面从 BK AVDK SMP 平台角度说明 BK7258 上典型的处理器划分与软件分层(BK AI 业务代码运行在应用层及服务层,并依赖 SMP 提供的 OS、驱动与网络能力)。 Armino SMP 架构采用 AP(应用处理器)+ CP(通信处理器)划分: - **AP(CPU1 + CPU2)**: 运行多媒体应用、AI 交互、音视频处理等核心功能 - **CP(CPU0)**: 运行 Wi-Fi、BLE、低功耗协议栈等通信功能 软件架构层次(示意): :: 应用层 (AI 交互、UI 显示) ↓ 服务层 (媒体服务、网络传输、音频引擎) ↓ RTC 层 (Agora RTC SDK) ↓ OS 层 (RTOS) ↓ 硬件层 (BK7258) 主要应用场景 --------------------------------- 1. **智能陪伴设备**: 提供语音对话、情绪表达、视觉反馈,适合儿童陪伴、老人关怀等场景 2. **智能教育设备**: 支持语音问答、图像识别,可用于学习辅助、知识问答 3. **智能家居控制**: 通过语音交互控制智能家居设备,提供便捷的控制方式 4. **企业服务机器人**: 支持多模态交互,可用于客服、导览等场景 技术优势 --------------------------------- 1. **与 SMP 协同的解决方案**: BK AI 提供场景化解决方案与参考工程文档;硬件驱动、RTOS、协议栈等由 BK AVDK SMP 统一提供,二者配套形成完整开发路径 2. **模块化设计**: 各功能模块独立,便于定制和扩展 3. **丰富的参考设计**: 包含常用外设的参考实现,加速产品开发 4. **灵活的配置**: 支持 Kconfig 配置系统,可根据需求灵活裁剪功能 5. **完善的文档**: 提供详细的开发文档、API 参考、使用示例