语音控制+人脸识别——二次开发 Parrot 无人机！-EDA365

嵌入式 > 技术百科 > 详情

语音控制+人脸识别——二次开发 Parrot 无人机！

发布时间：

继“如何用100美元和TensorFlow来造一个能‘看’东西的机器人”之后，Lukas又一最新力作。

在“造”出能进行物体识别的机器人后，下一步就很清晰了，我要“造”一个能飞的东西!我决定搞一个能自主飞行的无人机，并要它能识别人脸和响应语音指令。

- 选择一台成品无人机

开始“黑入”一台无人机的最难的部分就是如何开始。我最初的选择是用零件组装一台无人机。但和我完成的大部分的DIY项目一样，从零开始一般都耗费了太多的时间，还不如直接买一个成品。实话实说，我自己组装的无人机从来没有正常的飞行过。而买一台成品机就既省事又省钱。

绝大部分无人机厂商都宣称提供API接口，但对于业余玩家来说就没有一个明确的最佳选择。大部分能提供貌似可用的API接口的无人机都要超过1000美元。这对于入门级的玩家来说就太贵了。

但经过搜索，我发现Parrot AR.Drone 2.0无人机版(见图1)是一个低端可“黑”入无人机的极佳选择。新的售价是200美元，不过很多人在买了以后就不怎么再玩了，所以在eBay上花130美元或更少就能买到一个不错的二手货。

图1：我车库里的无人机收藏。最左边的就是Parrot AR.Drone 2.0无人机

论飞行稳定性，Parrot AR.Drone型不如更贵的Parrot Bebop 2型(550美元)。但是Parrot AR.Drone型所带的叫node-ar-drone的node.js客户端库是非常好用的。

Parrot AR型的另外一个优点是它非常皮实、耐摔。在测试自主飞行代码的时候，我的无人机频繁地撞到墙、家具、植物甚至是我们家的客人，并坠落。但它还是依旧能正常飞行。

比起“造”能在地上跑的机器人，“造”无人机最不爽的一点就是它的电池可用时间太短了。基本上是充电几小时，飞行十几分钟。所以我建议多买两块电池，循环充电使用。

- 给我的无人机开发程序

我经过实践发现，Javascript内在的事件驱动的特性使得它成为一种非常好的控制无人机的语言。请相信我，无人机飞行的时候，是有非常多的异步事件发生。我写Node.JS的时间并不长，但在这个项目过程中，我对它的印象非常深刻。上一次我正儿八经地为机器人写程序用的是C语言。处理C语言的线程和异常是一件非常让人头疼的事，所以我尽量避免再使用它。我希望有人能为其他的机器人平台开发出JavaScript的接口，因为这会让为机器人开发程序(完全无法预知会发生什么事)变得更简单更有趣。

- 架构设计

我决定在我的笔记本上运行控制逻辑，同时在云端运行机器学习的部分。这种架构设计比在树莓派板上直接运行神经网络的延迟要低。我认为这种架构对于业余无人机项目而言是合适的。

微软、谷歌、IBM和亚马逊都提供快速且便宜的机器学习API。最终我选择了微软的认知服务API来完成这个项目，因为它是唯一提供定制化的人脸识别功能的API。

图2里展示了整个无人机项目的系统架构。

图2：智能无人机的系统架构。图片由Lukas Biewald授权使用

- 开始动手

默认地，Parrot AR.Drone 2.0版自己可以提供一个无线网络，供客户端接入，但是这个功能却极度烦人。每次你要实验点东西，你都需要从本地网络断开，再连到无人机的无线网里。好消息是，有一个叫ardrone-wpa2的项目，非常有用，用它你可以“黑”进无人机，并让无人机连到你自己的无线网络里。

Telnet到无人机操作系统上并游荡一番是挺有趣的。Parrot无人机使用的是一个简化版的Linux操作系统。你上次Telnet到某个系统上是什么时间哪?下面的命令例子就演示了如何打开一个终端并直接登录到无人机的操作系统上。

% script/connect “The Optics Lab” -p “particleorwave” -a 192.168.0.1 -d 192.168.7.43

% telnet 192.168.7.43

- 通过命令行来控制飞行

在安装了node库之后，下一步就是生成一个node.js的命令行运行环境，然后就可以开始控制你的无人机了：

vararDrone = require(‘ar-drone’);

var client = arDrone.createClient({ip: ‘192.168.7.43’});

client.createRepl();

drone> takeoff()

true

drone>client.animate(‘yawDance, 1.0)

如果你按照我上面所说的一步一步地实验到这里，你的无人机肯定已经坠落过了——至少好几次。我已经无数次地把我的无人机的保护外壳给它粘回机身上，直到它彻底解体，随后我只好再买了一个新的。我不得不说，其实Parrot AR.Drone型在没有保护外壳的时候飞行得更好。但这种方式会使无人机变得很危险。因为没有保护外壳的话，一旦无人机撞到东西，它的螺旋桨就会直接打到物体上，并留下刮痕。

- 从网页上控制无人机飞行

为无人机开发一个基于网页的控制页面挺简单且效果不错。用如下所示的express.js框架就可以搭建一个很小巧的网页服务器。

var express = require(‘express’);

app.get(‘/’, function (req, res) {

res.sendFile(path.join(__dirname + ‘/index.html’));

});

app.get(‘/land’, function(req, res) {

client.land();

});

app.get(‘/takeoff’, function(req, res) {

client.takeoff();

});

app.listen(3000, function {

});

我用下面的代码来通过一个按钮发送AJAX请求。

Takeoff

Land

- 从无人机上导出视频流

我发现把无人机上的摄像头拍摄的视频导出的最佳方法就是：建立一个持续的连接，并把摄像头拍摄的PNG图片发送到我的网站的网页上。通过使用AR.Drone无人机的库(见下面的代码)，网页服务器不断地把无人机摄像头拍摄的PNG画面拉取出来。

varpngStream = client.getPngStream();

pngStream

.on(‘error’, console.log)

.on(‘data’, function(pngBuffer) {

sendPng(pngBuffer);

}

functionsendPng(buffer) {

res.write(‘–daboundary\nContent-Type: image/png\nContent-length: ‘ + buff

er.length + ‘\n\n’);

res.write(buffer);

});

- 对从无人机获取的图像进行人脸识别

微软的Azure Face API系统很容易上手，且功能强大。你上传你朋友的照片给它，这个系统就能识别出他们是谁。它也能猜测人物的年龄和性别。我发现这两个功能的识别准确率是惊人的高。整个识别的延迟大概是200毫秒。识别1000次请求花费1.5美元。对我而言，这个价格对于这种应用是相当合理的。下面是我的代码，它实现了发送图片给API来做人脸识别的功能。

var oxford = require(‘project-oxford’),

oxc = new oxford.Client(CLIENT_KEY);

loadFaces = function() {

chris_url = “https://media.licdn.com/mpr/mpr/shrinknp_400_400/

AAEAAQAAAAAAAALyAAAAJGMyNmIzNWM0LTA5MTYtNDU4Mi05YjExLTgyMzVlMTZjYjEwYw.jpg”;

lukas_url = “https://media.licdn.com/mpr/mpr/shrinknp_400_400/p/3/000/058/147/34969d0.jpg”;

oxc.face.faceList.create(‘myFaces’);

oxc.face.faceList.addFace(‘myFaces’, {url =>chris_url, name=> ‘Chris’});

oxc.face.faceList.addFace(‘myFaces’, {url =>lukas_url, name=> ‘Lukas’});

}

oxc.face.detect({

path: ‘camera.png’,

analyzesAge: true,

analyzesGender: true

}).then(function (response) {

if (response.length> 0) {

drawFaces(response, filename)

}

});

我用了ImageMagick库来对我收集的PNG图片做打标签，效果相当好。对于这个部分其实可以有很多的扩展可能。比如用一个情感API来识别人脸所表现出来的情感。

- 运用语音来控制无人机

进行语音识别部分开发的难点并不是识别本身，而是如何把语音流从运行在我本地服务器上的网页里转换成微软Speech API可以使用格式。下面的代码就是实现这个功能的。一旦你能把语音保存成单声道和以正确的采样频率采样后，这个语音识别API就能很方便地识别语音内容。这个API的花费是1000次请求4美元。对于业余应用来说，基本相当于是免费了。

RecordRTC是一个很好的库，可以用来作为以网页为客户端的语音采集的新手入门的工具。在客户端，我就加入了保存语音文件的代码。

app.post(‘/audio’, function(req, res) {

var form = new formidable.IncomingForm();

//设定允许客户在一个请求里上传多个文件

form.multiples = true;

form.uploadDir = path.join(__dirname, ‘/uploads’);

form.on(‘file’, function(field, file) {

filename = “audio.wav”

fs.rename(file.path, path.join(form.uploadDir, filename));

});

//记录发生的错误日志

form.on(‘error’, function(err) {