PLAUD.AIの要約機能が秀逸

「AIレコーダー」の文字起こし精度に差はあるのか? PLAUD/オートメモ/Pixelの3つで比較してみた

議事録作成のための会議の録音や発表会の文字起こし用、あるいは自分のための音声メモなど、様々な用途で利用されるボイスレコーダー。オンライン会議が増えてきたことで、主催者側で直接録音・録画されることも増えているが、個人的な記録のためにPCの前でスマートフォンを置いて録音したことがある人もいるのではないだろうか。

そんなボイスレコーダーだが、最近では「AIレコーダー」を名乗るものがいくつか登場してきている。録音後にAIが文字起こしを行い、要約や議事録の作成まで行えるというものだ。

はたして、このAIレコーダーはどの程度使えるものなのか。今回は、PLAUD(プラウド)が12月10月に発売したばかりの「PLAUD NotePin」、SOURCENEXT(ソースネクスト)の「AutoMemo R」、そしてGoogleのスマートフォン「Pixel 9 Pro」のレコーダーアプリにて、使い勝手や文字起こしの精度を比較してみた。

比較に試用したAIレコーダー

比較に入る前に、利用したAIレコーダーそれぞれの特徴について簡単に触れておこう。

PLAUD NotePin

PLAUD NotePinは、アクセサリーのような見た目で、一見するとボイスレコーダーには見えないのが特徴だ。リストバンド、ネックレス、クリップ、マグネットでのピン留めなど、様々なスタイルで持ち歩くことが可能となっている。

▲PLAUD NotePin。見た目はただのカプセル
▲ネックレスのほか、リストバンドやクリップで服に止めることも可能。背面にマグネットプレートがあり、服を挟んで留めることもできる

本体にはディスプレイはなく、状態表示のLEDがあるのみだ。見た目ではわからないが、中央がタッチボタンになっており、長押しで録音開始/停止が行える。逆に言うと、本体ではこれ以外の操作は一切ない。

録音したデータはスマートフォンのアプリに自動で転送され、スマートフォン経由でクラウドにアップロードして文字起こしを行う。このため、利用するにはスマートフォンが必須となっている。

なお、PLAUD NotePinや前モデルとなるPLAUD NOTEで録音したデータでなくとも、音声ファイルをインポートして文字起こしを行うこともできる。

PLAUD NotePin本体を購入すれば、月300分までは無料で文字起こしが利用できるが、それ以上使う場合には、有料プランの契約が必要になる。

▲PLAUD.AIの料金プラン。PLAUD.AIを利用するには、PLAUD NotePinあるいはPLAUD NOTEの購入が必須とのことだ

SOURCENEXT AutoMemo R

SOURCENEXT AutoMemo Rは、ディスプレイも搭載したボイスレコーダーだ。Wi-Fiに対応しており、録音データを直接クラウドにアップロードできる。スマートフォンは不要だ。見た目も一般的なボイスレコーダーに近い。

▲SOURCENEXT AutoMemo R。見た目は普通のボイスレコーダーに近い。スマートフォンは必要なく、単体でクラウドにアップロードを行える

録音した音声の再生もAutoMemo R上で行えるが、文字起こしされた内容を確認することはできない。上位モデルのAutoMemo Sなら、文字起こしデータの確認も可能だ。

なお、SOURCENEXTのサービス(AutoMemo)は、オンライン会議などの場合には専用レコーダーを使わずともブラウザ上から直接PC内の音を録音することも可能。別途音声データをアップロードすることもできる。

月1時間の文字起こしは無料で利用できるが、それ以上を利用する場合は、有料プランの契約が必要になる。デバイス購入は必須ではなく、サービスのみの契約も可能。

プラン名お試しプランスタンダードプランプレミアムプラン
料金(税込)無料1,280円/月・15,360円/年(一括)1,980円/月・23,760円/年(一括)
対応機能文字起こしのみ
(要約はお試し1回)
文字起こしのみ
(要約はお試し1回)
文字起こし+要約
(要約は10回/月)
文字起こし時間1時間/月30時間/月30時間/月

Pixel レコーダーアプリ

Pixelスマートフォンに搭載されている、Google純正のレコーダーアプリ。他の2つとは違い、スマートフォン内でリアルタイムに文字起こしを行う。Pixelスマートフォンの標準機能なので、追加の費用も必要ない。なお、録音と文字起こしのデータはクラウドと同期ができ、あとからウェブ上で確認することもできる。

▲Pixelスマートフォンに搭載されているレコーダーアプリ。追加の料金等は不要

文字起こし精度の比較

ここからは、実際に録音・文字起こしを行ったデータを比較していこう。今回は、PLAUD NotePinの発表イベントを録画したものをPCで再生、それをPCの前で録音するというスタイルを取った。ウェビナーを録音するのに近い環境になるだろう。直接音声ファイルをアップロードしたり、AutoMemoならPC上で録音することもできるのだが、本体の使い勝手も確認したかったのでこの方法を採用した。

PLAUD NotePinは録音後、まずスマートフォンにデータが転送される。その後スマートフォンからクラウドに転送されるが、自分で開始操作をしなければ自動的に文字起こしされることはない。文字起こしにかかる時間は、30分の録音でも5分ほどといったところだ。

SOUCENEXTのAutoMemo Rは、Wi-Fiがある環境であれば自動でクラウドにアップロードされ、文字起こしも行われる。だが、文字起こしの時間が自動で消費されてしまうので注意したい(自動文字起こしは設定で無効にもできる)。

以下に、実際に文字起こしされた文章の一部を抜き出してみた。なお、カッコ内はそれぞれが利用しているクラウドサービスの名称となっている。

▲文字起こしに利用した発表会の様子(抜粋)

PLAUD NotePin(PLAUD.AI)

弊社のミッションですね、Connect AI with Realizeですね、つまりAIと現実生活を結びつけるということになります。あと、AI as a Serviceというのが、弊社の目的としては、AIの力を現実的に、現実的な世界を価値を提供する、できるようにやっていきたいですね。プラウドAIとはですね、個人や企業が最大限の制限を上げられるように、AIデバイスとAIエージェントを開発し、AIビジネスパートナーとして役割を果たしていきます。

▲PLAUD.AIのウェブ画面。文章の区切りも自然な印象を受けた

SOURCENEXT AutoMemo R(AutoMemo)

弊社のミッションですね。つまり、AIと現実生活を結びつけるということになります。あと、AIasaServiceというのが弊社の目的としては、AIの力を現実的に現実的な世界を価値を提供するやっていきたいですね。クラウドAIとはですね。個人や企業が最大限の制限を上げられるように、AIデバイスとAIエージェントを開発し、AIビジネスパートナーとして役割を果たしていきます。

▲AutoMemoのウェブ画面。文章が細かく改行され、若干の読みにくさがある

Pixel レコーダーアプリ

弊社のミッションですね。 AI をリアライトですね。つまり、 AI と現実生活を結びつけるということになります。あと、 aiss サービスというのが弊社の目標としては、 AI の力を現実的に現実的な世界を価値を提供するできるようにやっていきたいですね。で、クラウド AI とはですね。個人や企業が最大限の制限を上げられるように、 AI デバイスと AI エージェントを開発し、 AI ビジネスパートナーとして役割を果たしてきます。

▲Pixelレコーダーのウェブ画面。文章はとくに改行されない

人力で文字起こし

弊社のミッションですね、Connect AI with Real Lifeですね、つまりAIと現実生活を結びつけるということになります。あと、AI as a Serviceというのが、弊社の目標としてはAIの力を現実的に、現実的な成果を、価値を提供する、できるようにやっていきたいですね。PLAUD AIとはですね、個人や企業が最大限の制限(注:実際には成果だが、話者が制限と発話しているように聞こえる)を上げられるように、AIデバイスとAIエージェントを開発し、AIビジネスパートナーとして役割を果たしていきます。

上にあげた例はごく短いものだが、他の部分を確認しても、どれも9割程度は意味が通る内容になっている。一部おかしいと感じる部分はあるが、全体を通して読めば意味は通じるだろう。

ただ、いくつか気になるポイントもあった。上の例の中では、「Connect AI with Real Lifeですね」という部分だ。日本語の文章中に英語が混ざるので、うまく文字起こしできなくても仕方がない部分ではあるが、PLAUD.AIはかなり正確に英文として書き越している。Pixelレコーダーは、なんとか日本語として解釈して文字起こしをしているようだ。それに対して、AutoMemoでは、このセンテンスが完全に欠落している。

補足しておくと、PLAUD.AIもPixelレコーダーも、日本語を指定して文字起こしをしている場合、英語など日本語以外の発言は文字起こしを行わない。その意味では、AutoMemoが文字起こしを行わなかったのは仕様通りだと言える。ただ、続く文章の「AI as a Service」は、単語の区切りはできていないものの、英文として文字起こしを行っている。おそらくだが、英文のあとに間があるかどうかで欠落するか文字起こしをするか変わっているのではないだろうか。

あとは、「PLAUD AI」という単語だが、PLAUD.AIだけが「プラウドAI」と書き起こし、他は「クラウドAI」になってしまった。実は、PLAUD.AIとAutoMemoは、文字起こしにはどちらもOpenAIの音声認識エンジン「Whisper」を利用している。ただ、それぞれ独自にチューニングは施しているので、細かな部分では差がつくのだろう。PLAUD.AIが「プラウドAI」と書き起こせたのも、自社にかかわる単語として事前に学習していた成果なのかもしれない。

要約機能はPLAUD.AIが一歩リード

PLAUD.AIとAutoMemoには、文字起こしした内容を要約する機能も備えているので、これも試してみた。AutoMemoに関しては、一応要約は行えるが、それほど使いやすいという印象はない。あとから議事録などを作成する場合に便利になるという程度の印象だ。

▲AutoMemoの要約。とりあえず要約はされるものの、それほど使いやすいという印象ではない

これに対して、PLAUD.AIの要約機能はかなり力が入っている。まず、要約する際に、どのようにまとめるのかテンプレートを選択することが可能だ。

会議のメモやスピーチ、インタビュー、通話記録など、さまざまなテンプレートが用意されているほか、有料プランに加入していれば自身でテンプレートを作成することもできる。また、要約をもとにしたマインドマップも自動で作られる。

なお、要約にはGPT-4oが使われるが、ベータ版としてClaude 3.5も選択可能だ。

▲PLAUD.AIは、選択したテンプレートにあわせて要約が出力される。そのままでも議事録などで利用できそうだ
▲マインドマップも出力可能

精度は大きく差がない。利用シーンに応じて選択を

どれを使えばいいのかだが、利用するシーンや用途によって変わってくる。PLAUD NotePinは、さまざまなスタイルで身に付けたり持ち運ぶことができるAIレコーダーらしくないところが魅力だ。会議の録音に限らず、ちょっとした思い付きを残しておく音声メモとしても利用しやすい。

逆にレコーダー然としているAutoMemo Rは、録音しているということが周囲にもわかりやすい。対面での会議時などにはこうしたスタイルの方が使いやすいかもしれない。また、AutoMemo自体はブラウザ上から直接録音できるのが強みだ。オンライン会議が多い場合には重宝するだろう。

Pixelレコーダーは、追加料金が必要なく、スマートフォンで文字起こしできるのが魅力だ。文字起こしはリアルタイムなので、話を聞き逃した、単語が聞き取れなかったという場合でも画面上ですぐに確認できる。

文字起こしの精度としては、PLAUD NotePin(PLAUD.AI)とSOURCENEXT AutoMemo R(AutoMemo)が同等、Pixelレコーダーがやや劣るといった印象。なお、今回は特に触れなかったが、PLAUD.AIとAutoMemoは話者認識も行える。複数人が話している場合は誰の発言なのか把握しやすい。Pixelレコーダーは英語であれば話者認識を行えるのだが、日本語では未対応だ。

Pixelレコーダー以外は、本格的に使うには追加料金が必要になるが、文字起こしの精度などを考えると、十分に見合った価格だと思う。議事録の作成や商談記録、あるいは音声メモの書き起こしなどを手間に感じているのであれば、試してみる価値は大いにあるだろう。

関連キーワード: