21对话|中美脑机接口竞速,差异在哪里?
21世纪经济报道记者骆轶琪 广州报道
中国脑机接口公司上大分!这两年已经有不少“全球首个”“中国首次”的案例出现。
在脑机接口行业,中国公司到底发展到了什么程度,全球头部企业之间的路线有什么差异,AI又会给这个行业带来什么新的催化?
21世纪经济报道记者对话脑虎科技创始人兼首席科学家陶虎,听听他的分析。
《21世纪》:近两年国内侵入式脑机接口临床试验案例增多的原因?
陶虎:最近这两年,随着技术的进步,尤其是AI技术的进步。对于行业来说,一方面,让我们对大脑脑电信号采集的能力,从数量和质量方面都大幅提高。同时随着AI技术发展,对于之前采集来的高质量、大规模数据,能够更好去分析,进而进行神经编解码。
这让行业可以较好实现用意念合成运动、脑虎团队做到用意念合成语言。这都是基于近些年技术的发展实现的。
当然同时也有很多外因促进。第一是技术本身,第二是政策,第三是资源或资本。
所以不管在临床进展、技术性能体现上,以及更大的资源、资本投入上,可能比前两年,会呈现出一个新的高峰。
《21世纪》:脑虎科技全球率先实现实时汉语言解码技术,是否比英语解码更难?
陶虎:首先介绍一下运动和语言之间的差别。用意念合成运动,其实早在20年前,美国就有公司做出来,实现用意念控制拿杯子、拿可乐,握手甚至进行剪刀石头布(的游戏)都可以做到。到目前为止,国内几家头部企业和科研团队,也都能实现用意念合成运动。
相对来说,用意念合成语言,是比运动更为高级的功能。一方面,神经编解码机制更为复杂、涉及的脑区更多,本身完成这一项工作所需要的信息量也更大。
汉语的特殊性在于,第一,汉语是单音节的,但英语是多音节的,体现在大脑中,对语言本身相应的大脑编解码方式就不太一样。第二,汉语有语调,而且语调特别重要,比如普通话有四调、粤语甚至有八调,其实每个音调代表不同的意思,这也意味着一些解码机制的不同。第三,汉语到现在为止属于方块字,有些字本身蕴含一些“会意”。
在这些汉语和英语间基本的不同之下,编解码方式也需要有较大调整。当然二者依然有共通的地方,比如虽然是汉语或西语体系,依然在人类大脑的语言区来处理。
《21世纪》:从实时运动解码到实时语言解码,整体逻辑是怎样的?
陶虎:我来举个例子,至少我们内部是这样认为的。
例如智能驾驶或无人驾驶,有相对明确的L1-L5技术边界。那么脑机接口行业也有类似定义,至少我们内部会有这样的定义,也是根据本身实现的难易程度、实现后的获益程度决定的。
L1基本就认为是实时运动解码。相对来说,其涉及的脑区比较单一、所需通道数也比较少。其实目前行业做到几十甚至几千通道数,但对运动来说,几个通道数就可以实现用意念控制轮椅、抓取杯子、意念控制打游戏等动作。
L2我们认为是实时语言解码。因为语言涉及脑区更多,可能带来的信息量更快,特别是输出速度方面。例如人与人之间日常沟通半个小时左右,但通过实时语言解码,绕开发声器官,直接用脑机接口技术来实现沟通,可能几分钟甚至几秒钟就可以沟通完成。
L3我认为是进行视觉解码。因为人类获取信息,绝大部分是通过视觉来完成,而且视觉本身信息量更大。虽然视觉皮层在脑部的偏后方,但视觉皮层覆盖的面积非常大,就是为了获取更多信息,未来可能还要处理更多的信息。这是马斯克和我们都在布局的方面。
到了L4,可能就是大家一直期待,也是脑虎科技在布局的情感、记忆、认知等方面。倒不是说它的信息如何难,而是涉及的脑功能更为复杂,所涉及的脑区神经环路也更为复杂和先进。
当然脑机接口行业的L1-L4,与无人驾驶行业还有所不同。因为智能驾驶还是比较严格遵循L1-L2、L2-L3的升维路线。但在脑机接口行业,L3和L2之间似乎还没有必然的先后顺序,有些人选择不做语言解码,先做视觉解码也可以。
更多内容请下载21财经APP