business

株式会社アドバンスト・メディア創業者、鈴木清幸:GAFAを既に超えている技術とは?

 

 

 

GAFAを既に超えている技術とは?

 

 

鈴木清幸/アドバンスト・メディア創業者

 

 

 

私たちの技術は、GAFAを既に超えています。

だからビジネスでも当然、GAFAに勝てるんです。

どういうことかと言いますと、彼らは音声認識において「汎用エンジン」しかつくれない。

汎用ということは、どのような音声も認識はしてくれますが、その精度はすべてにおいて最適なものであるわけではありません。

なぜなら、すべてのデータを同じように学習してしまうからです。

でもユーザーの思いや使いみちは個々それぞれに違うので、汎用では結局、使い物にならないんです。

コンシューマービジネスはそれでもいいですが、一般ユーザーからお金を取るわけにはいかないので、儲けるために必要となるのはBtoBで役立つ音声認識エンジンなんです。

私たちは、用途に応じた個別の音声認識エンジンをつくっています。

議事録とか、コールセンターとか、医師のカルテ作りとか、ある目的のために個別に特化した専用のエンジンをつくっている。

これができるのは私たちしかいないんです。

さらに言うと、AIの時代ではデータが全てを物語ると言われています。

私たちはBtoBの世界で22年間もデータとノウハウを蓄積してきた会社です。

でもコンシューマービジネスをやってきたグーグルには、BtoBのデータとノウハウはありません。

だからGAFAにも勝てるんです。

 

 

 

 

 

 

 

 

 

 

鈴木清幸(アドバンスト・メディア創業者)とは?

 

 

鈴木清幸。

1952年生まれ。

 

京都大学大学院工学研究科化学工学専攻博士課程中退。

78年、東洋エンジニアリング入社。

 

インテリジェントテクノロジーへ転職後、米国カーネギーグループ主催の知識工学エンジニア養成プログラム(KECP)を修了。

97年にアドバンスト・メディアを設立。

 

2005年に東証マザーズ上場。

10年に代表取締役会長兼社長に就任。

 

 

 

 

 

 

 

鈴木清幸(アドバンスト・メディア創業者)の「コトバ」

 

 

 

 

ITブームが盛り上がった今世紀の初め頃、音声認識も新技術として持て囃されましたが、ビジネスとしては全然ダメでした。当時は「特定話者」に限られた音声認識だったため、「音声認識は使えない」という烙印を押されてしまったのです。不特定に誰とでも会話をすることができ、話すスピードの変化、抑揚、アクセントの違いに対応できる。そんな、これまでにない音声認識エンジンを作るため、私は16年前にAMIを創業しました。その後、音声認識技術は著しい進化を遂げ、モバイル対応へ利用が広がりました。当社が提供する音声認識技術『AmiVoice』は、08年にNTTドコモの「音声入力メール」に搭載され、「ソフトウェア・プロダクト・オブ・ザ・イヤー」を受賞。11年には当社技術を基にヤフーが開発したアイフォーンアプリ『音声検索』が話題を呼び、同年、当社アプリの『音声認識メール クラウド』は、アップストアの1位に輝きました。スマホに向かって喋る声が、そのまま文字になり、新しい価値を生み出す。「声」が動かす未来を、多くのユーザーが感じたことでしょう。

 

 

 

 

 

 

 

音声認識の時代が来たことに、ある種の感慨はあります。創業して22年目になりますが、当時は音声認識の市場はかけらもありませんでした。いまは世界最高の音声認識技術を開発して「コンタクトセンター」「医療」「議事録・書き起こし」「製造・物流・流通」「営業支援・業務報告・対面支援」「建設・不動産」「インバウンド」の7つの市場を開拓しています。最初に開拓したのは医療です。MRIやCTの画像を読む専門家がいて、分析レポートを書かなければなりません。この画像は電子化されたレポートとともに数年間保存するのが世界的なルールです。そこに私たちの音声認識で市場を開拓し、電子カルテにも導入してきました。

 

 

 

 

 

 

 

クルマに例えましょう。どんなに優れた音声認識という「エンジン」をつくったって、誰も使わない。「クルマ」をつくって、ユーザーが来ないと始まらないんです。だから音声認識を備えた「クルマ」をつくり、少しビジネスに持っていくことができました。でもそれで株式上場はできても、なかなか業績がついてこない現実がありました。なぜかというと、ユーザーにとって音声認識という「文化」がなかったからです。初めて音声認識を使っている人を見たとき、みんな奇異に思ったはずです。「何をやっているんだろう」と思いませんでしたか?

 

 

 

 

 

 

 

 

 

コールセンターでは「言った」「言わない」を確認するために会話を録音していますが、問題のあるところはオーディオ検索機能がないと探せません。ところが、われわれの「Ami Voiceビジュアライザー」を使えば会話が文字化されるので文字検索で問題会話を発見できます。また、ある大手通販会社の例ですが、1人のスーパーバイザーが20人のオペレーターを担当し、オペレーターが手を挙げた順序で支援に駆けつけていました。しかし成約率向上に結びつくとは限りません。私たちの「AmiVoiceアシスト」を使えば、20人の会話が全て文字で見えてきます。さらに、AI(人工知能)を使ってNGワードやNG表現などに反応し色で表示するので、緊急度や優先度を認知することができます。どのオペレーターを支援に行くべきかを自分で決定でき、これで成約率がかなり上がりました。個々の企業に特化した音声認識AIです。汎用型であるGAFAの音声認識では、このレベルまでの対応はできません。

 

 

 

 

 

 

 

 

当社は02年から医療分野向けの音声入力システムを提供し、医師の負担軽減と情報化に貢献してきました。電子カルテ向け、放射線科読影レポート向け、調剤電子薬歴向けなど、医療分野での導入実績は約4200施設。専門用語が多い医療分野に特化した音声入力ですからキーボード入力よりはるかに速く、断然効率的です。特に放射線科向けは98%の認識率を獲得し、レポート作成時間を一気に短縮、オンリーワンのブランドになっています。ちなみに当社の技術パートナーである米国のMモーダル社は、当社と同じ年に設立されたベンチャー企業ですが、今では米国の医療分野で最大手の音声認識事業者に成長しています。

 

 

 

 

 

 

 

 

いまは「働き方改革」の波が来ていまして、議事録も医療も、音声認識を使ったサービスの利用が一気に広がっています。たとえば東京都議会。私たちの議事録作成支援システムの採用でこれまで1週間以上かかっていた議事録の作成が1日でできるようになった。病院でも、カルテ作りを音声認識でできるようになり、残業時間やコスト削減につなげることができた。こうした時代の波は今後もますます広がっていくことでしょう。

 

 

 

 

 

 

 

 

私たちは既存コアビジネスのさらなる成長を「BSR(超音声認識)1」、「新規ビジネスの創生・M&A・海外事業」を「BSR2」として、2つの成長エンジンを駆動することで7つのマーケットを創生してきました。従来の音声認識ビジネスのやり方を変えた超音声認識(BSR: Beyond Speech Recognition)ビジネスでマーケットを創ったとも言えるのです。BSRとは伸びそうな分野を探すことに加えて当社独特のBSR戦略を展開することを意味しています。今後は7つのマーケットをBSRで格段に伸ばすことはもちろんですが、BSR2の目的である新たなビジネスの追加と海外事業・リージョン(地域)の拡大が顕在化していくと思います。例えば、2018年には中国の大手家電メーカー・美的集団のコールセンターの全1500席にAmiVoice統合ソリューションを入れました。私たちのAI音声認識と音声認識AIで創れそうな市場は多々あるように思えます。しかしながら市場創りを牽引するアプリケーションやサービスを創っても人々に使っていただかなければ市場化の未来は来ないのです。

 

 

 

 

 

 

 

 

私はAMIの技術は世界最高だと思っています。が、それは単なる必要条件であり、成功するための十分条件ではない。その十分条件とは、何か? それは、全て「すごい技術は自ずと市場を生み出す」という勘違いから生まれたものです。不便なものに対して、人は喜んでお金を払わない。「機械が王様、人間が仕える者」という構図ではマーケットは広がりません。言葉を換えれば、キーボードやマウスのように人が機械に合わせないと意思が伝達できない「ハードコミュニケーション」の時代から、人が自然に意思を伝えられる「ソフトコミュニケーション」の時代に変革する必要がある。そのために、音声認識技術も「人間主体」にする必要があると考えています。では、一体どうやってマーケットに、それを浸透させるのか。いくらテクノロジーを作る側が人間主体だと訴えても、私たちは見たことも使ったこともないものには距離を置くものです。さらに、これまで機械主体が人間主体に置き換わったということは、革新性のある製品が誕生したということであり、革新性が前面に出れば出るほど、そうした製品に飛びつく層は限られてくる。つまり、「機械に対して喋る文化」がないところに、いくら音声認識の革新的なテクノロジーを訴えても奇異に思われるだけで、誰も機械に向かって喋ってみようとは思いません。テクノロジーではなく、機械に向かって喋る文化を普及させること。それが、創業からの苦闘の歴史でした。

 

 

 

 

 

 

 

 

 

認知度は高まったが、まだアーリー・アドプターの段階です。AMIの存在を認めてもらうキーワードとして、私は「JUI(ジユイ)」を掲げてきました。AMIの製品やサービスは面白い(Joyful)、役に立つ(Useful)ものだと感じてもらうことでマジョリティーのマーケットに浸透していきます。「面白い」と捉えるのは個人ユーザーであり、「役に立つ」と捉えるのは企業ユーザーです。しかし、この状況でマーケットは安泰ではなく、もう一度「使われなくなる」という谷に落ちる。これを超えていくには「なくてはならない(Indispensable)」ものにならねばならない。それがお金を払い続ける唯一にして最大の理由だからです。目下、スマホやタブレット端末などに初期費用を抑え、かつ容易に音声認識機能の組み込みを可能にした企業向けクラウドサービスが好調。黒字化が射程内にあります。数年後には「声が価値を生み出すサービス事業」と「溢れる声をデータにするサービス事業」が花開くと確信しています。

 

 

 

 

 

 

 

 

 

 

人々を連れて行くには明確なビジョンが必要です。私たちのビジョンは、人とキカイ(AI)が自然なコミュニケーションを行なえる「HCI(ヒューマン・コミュニケーション・インテグレーション)の実現」です。最後の“I”がインターフェースというモノではなく、インテグレーション(融合)というコト(状態)であることが重要です。モノはすぐに創れますが、状態を創るのには時間がかかります。まさに未来を創るわけです。私たちのビジョンが意味することは、「蛇口をひねれば美味しい水が飲めるように、AmiVoiceを社会環境や家庭環境に融合し、いつでも、どこでも、だれでもがその恩恵を受けられる未来に人々を連れて行く」ということです。

 

 

 

 

 

 

 

 

私たちは成長のための「課題の発見、課題克服の仮説づくり、検証」の繰り返しで小さな成長の階段を上ってきました。その過程で見つけ出した仮説に「スリー・ステップス・リープ」(“3つのステップで飛躍できる”)と言うものがあります。これで中長期計画を作っています。3年間あれば売上げを2倍にできるということで、一昨年の売上高25億円に対して、昨年、今年、来年の3カ年で2倍の売上高(50億円)、さらに次の3年間で2倍の売上高(100億円)、その次の3年間で2倍(200億円)というペースで伸ばし、3回目の最終年度に営業利益率30%を達成させる計画を発表しています。現在は最初の3カ年の2年目が終わろうとしているところで、1年目は想定通りにビヨンド・ゴールできました。1年目と2年目の実績を踏まえて3年目に2倍というリープを実現させるわけですが、その成功のための重要な手段のひとつが“GAP(Goal-driving Actions with Perseverance)”です。ゴールが駆動する俊敏な動き“俊動”と失敗を認知し、すぐに次の手を打って、それをやり続ける“耐動”を意味しています。

 

 

 

 

 

 

 

従来のビジネスは、最高のモノを作って売るというやり方でした。でもこれは長続きしない。私が進めているのは、すぐにβ版を作って、まず使ってもらう。そして、お客様ととともに使える「製品」にしていくことです。導入段階から使い続けることで、次第になくてはならないものに変わっていきます。そこから「継続」というストックになっていく。一つの製品を次から次へとデビューさせていき、ストックが積み上げていくと、目標としている売上200億円の世界が見えてきます。これまでの22年間は、音声認識という「文化」がない中で、顧客を一生懸命探してきた。でもこれからは違います。顧客を「つくる」んです。顧客を「探す」ことから「つくる」ことへシフトしなければなりません。

 

 

 

 

 

 

 

 

時代が来たというよりも、私たちが時代を連れて来たんです。いくら「発明」しても、人々が気づかなければ、また使わなければ、「未来」はやって来ない。私たちは「未来」を「発明」し、そして人々を未来に連れて行ったんです。

 

 

 

 

 

 

 

人々を「未来」に連れて行くには、まず目標を持つこと。そして、いままで誰もやっていない行動をし、目標に近づいたか否かを見ながら、また近づく新たな行動を起こす。会社を作ってからの22年間、これをずっとやり続けてきました。最初に始めたときは、音声認識の技術を世界最高にすれば市場はできると勘違いしていました。でも実は、世界最高の技術なんてものは単なる必要条件でしかなくて、それがなければそんな世界をつくる資格がないわけです。世界最高の技術を持ったからといって、市場を作れるわけではない。ですから、その一つの必要条件をクリアしながら、ほかには何が必要かを考えたわけです。

 

 

 

 

 

 

 

 

 

「文化」を創ってきたんです。2007年にスティーブ・ジョブズがスマホを作った。タップしたりスワイプしたり、人間が直接的な介入をできる発明品が出た。これが始まりなんです。09年にはグーグルが音声検索機能を出した。レベルが低かったんですが、テレビで大宣伝しました。これで皆さんの目がパッチリと開き始めた。私たちは、01年にはもう既にsiriのようなバーチャルエージェントをつくっており、03年に大手自動車メーカーから大規模出資を受けた実績がありました。ですからグーグルが音声検索を大宣伝したときには音声認識に関してうちのレベルの方がはるかに上だったんです。

 

 

 

arashioono