Zodiac Signによる互換性を見つけてください
ジャーナリストのための最高の自動転写ツール
技術とツール

Siriはちょうど6歳になりました。 Alexaはちょうど3歳になりました。アルバカーキの天気を携帯電話に尋ね、リビングルームのプラスチックシリンダーにワシントンポストを大声で読み上げるように強制できるのなら、なぜ私たちはまだ手でインタビューを書き写しているのでしょうか。
ええと、私たちは本当にそうする必要はないことがわかりました。自動転記ツールはしばらく前から市場に出回っていますが、ようやく良くなりつつあります。オーディオまたはビデオをサイトにアップロードし、かなり包括的なトランスクリプトを受信するのに、今ではわずか数分、数ドルかかります。
ただし、すべてのツールと同様に、一部のツールは他のツールよりも優れています。ジャーナリストを対象とした最も人気のある8つの転写ツールをテストしました(またはテストを試みました。これについては後で詳しく説明します)。 ドラゴンディクテーション 、 ハッピースクライブ 、 oトランスクライブ 、 記録的に 、 Rev 、 ソニックス 、 トリント とYouTube。各ツールをさまざまな実際のシナリオで実行し、ジャーナリストの一般的な使用法に対して各ツールがどのように機能するかを実験しました。
完璧なツールはありませんでしたが、1つは他のツールをこのカテゴリーで最高のものとして打ち負かしました。
私たちのピック
正確さ、機能、使いやすさの組み合わせにより、Trintはジャーナリストの自動転記に最適です。私たちが試した中で最も正確で、機能が豊富で、最も安価なツールではありませんでしたが、そのトランスクリプト編集ツールとジャーナリストのワークフローにもう少しシームレスに適合する機能は、競合他社を打ち負かすのに役立ちます。理由を確認するために読んでください。
実験
ご覧のとおり、これらのツールの正解率は低くなっています。それは、私たちが最愛の人を混乱させようとしたからです。
まず、幅広い人、声、アクセントを反映するために、4人の参加者でサンプルオーディオを録音しました。それらが含まれています:
- Alexios Mantzarlis 、ポインター学院の教員であり、国際ファクトチェックネットワークのディレクターであり、ローマ出身であり、「英国、イタリア、および奇妙なアメリカのアクセントを混ぜ合わせた面白い言葉」を持っていると述べています。
- 甘い花束 、9月にメキシコシティからポインターに来た国際ファクトチェックネットワークのプログラムマネージャー
- クリステン・ハレ 、Poynterの記者、彼女は録音で自分自身を聞くと「少し谷の女の子っぽい」ように聞こえると思います
- 私、そしてクリステンは私が「バッファローのアクセント」を持っていると言いましたが、つぶやく、話すのが速すぎる、単語の一部をスキップする傾向は、おそらく文字起こしにとってより難しいことを証明すると思います(文字起こしされることを見越して自分自身を録音すると、明らかに少し自己につながります-反射。)
KristenはGoogleHangouts/ YouTube Live( 開示:Google News Labからの助成金は、私の立場に部分的に資金を提供しています )、ほとんどの自動転記ツールは公然と警告します。電話やビデオチャットからの音声は、彼らが扱うのが普遍的に難しいようです。
アルゴリズムをさらに苦しめるために、私たちは通常話すよりもはるかに速いペースでパッセージを読み、DulceとAlexiosはさまざまな外国語(イタリア語、スペイン語、フランス語、ギリシャ語)を話し、できるだけ多くの適切な名詞を発声しました(Apalachicola 、Michael Oreskesとさまざまなギリシャの島々、いくつか例を挙げると)、Urban Dictionary(a かばん語 ポール・マナフォートと彼の法的状況の状態を説明する大雑把な言葉)といくつかの頻度でお互いに話し合った。
ポインターのウェビナースタジオで14分間のテストを記録しましたが、少なくとも1つの大きな飛行機の頭上(数ブロック先に空港があります)の音、緊急車両、クリステンの電話の鳴き声によって中断されました。
オーディオは3つの方法で録音しました。
- とともに ズームH4nPro 私たちの間に配置されたハンドヘルドマイク
- 私のiPhone6SPlusでは、Recordlyアプリを使用して録画し、Zoomの横に配置しました
- プライベートYouTubeライブで、クリステンが私たちに加わった方法です
次に、オーディオを各ツールにアップロードし、各ツールの文字起こしにかかった時間を追跡しました。結果のトランスクリプトをMicrosoftWordを使用して正規化し、タイムスタンプを削除して、話者名が一致していることを確認しました。コントロールとして、(oTranscribeを使用して)音声を自分で書き起こし、数回聞いて全体の正確さを確認しました。また、アルゴリズムではなく人間の筆記者を使用する有料サービスであるRevを試して、それがどのように積み重なっているかを確認しました。
さまざまなドキュメント比較ツールをテストして、どれが最も効果的かを確認し、 Copyscape 最も健全なオプションとして。ツールとサービスによって生成されたトランスクリプトを、oTranscribeで作成した100%正しいものと比較しました。
いくつかの追加の注意:
- ズームからのオーディオが最高品質であることが証明されたので、ほとんどのテストでそれを使用しました。 Recordlyアプリは、他のソースから録音された音声を受け入れないようです。そのため、このプロセスの1つの例外です。また、ZoomオーディオをYouTubeにアップロードせず、代わりにYouTubeLiveレコーディングのオーディオに依存しました。リンゴとオレンジの比較により、この実験は科学的ではありませんが、ジャーナリストが実際にこれらのツールを実際にどのように使用するかと一致しています。
- 人気のあるツールですが、iOS 11では動作しないため、Dragon Dictationをテストできませんでした。開発者がこの問題を修正したときに、このレビューを更新します。
- テストする前にこれらの企業のいずれにも連絡をとっていなかったため、特別な処理やトランスクリプトのバックエンドのいじくりはありませんでした。 Trint、Sonix、およびRecordlyは、新規ユーザーに限定された無料の時間を提供しているため、実験にはそれらを利用しました。 Happy Scribeには記者以外の同僚のクレジットカードを使用しましたが、過去に創設者と連絡を取り合ったため、Poynterについては言及しませんでした。そして、私たちはRevの人間の転写に全額を支払いました。 YouTubeのキャプションサービスとoTranscribeは常に無料です。
- このレビューに含めなかった自動転記ツールは他にもたくさんあります。私たちはジャーナリストが私たちに尋ねたものに焦点を合わせようとしました。不当にスキップしたと思われる場合は、お知らせください。レビューを更新します。
トランスクリプトの品質(勝者:Happy Scribe)
人工知能の蜂起を懸念している人々は、私たちがテストした1つの人間の文字起こしサービスが自動文字起こしを大幅に上回っているため、準備に少なくとも数年かかるようです。
Revは、82%の精度評価を獲得しました。人間の翻訳者は、ほとんどの場合、外国語(公平に言えば、別のサービスです)、いくつかの適切な名詞、いくつかのクロストーク、いくつかの俗語、およびつぶやきの塊をキャッチできませんでした。他のツールもこれらのことをほとんど見逃していましたが、Revの人間の筆記者は、少なくとも「[inaudible]」、「[crosstalk]」、「[foreignlanguage]」などのことを指摘しました。
ビットが欠落している場合でも、Revトランスクリプトは完全に読み取り可能で一貫性があります。最初の会話に参加していなかった場合は、それを読むだけで、私たちが話していることの核心をつかむことができます。
次に正確な文字起こしはYouTubeでした。ビデオホスティングサイトは、72%正確なYouTubeライブビデオのキャプションを自動的に作成しました。ただし、全体的な品質がわずか10%低下したとしても、YouTubeでは句読点や話者のセグメンテーションが提供されていないため、トランスクリプトはRevよりも大幅に読みにくくなっています。キャプションは、大量のテキストブロックとして存在します。音声とペアリングしないと、会話に参加していない人が私たちの会話を理解することはほぼ不可能です。
YouTubeのサービスには他にも欠点がありますが、機能についてはそれらについて説明します。
Happy Scribeは、私たちの実験で62%の精度で、最も正確な専用の非人間転写ツールであることが証明されました。このツールは、アップロードページで、「重いバックグラウンドノイズを避ける」、「重いアクセントを避ける」、「Skypeや電話でのインタビューを避ける」、「マイクをスピーカーに近づける」ように警告します。これらはすべて、私たちが忠実に無視しました。
特にクロストークがなく、適切な名詞を使用していなかった場合、私が話していた場所では、トランスクリプトはほぼ正確ですが、Dulce、Kristen、Alexiosのトランスクリプションにかなり苦労しました。それはいくつかの場所で異なる話者を新しい段落に分割しましたが、他の場所では失敗しました。全体的な文字起こしは、ある場所では完全に一貫しているものと、他の場所では奇妙に一貫性がないものとの間で異なります。 。」
Trintは、61%の精度で同様の結果を提供しました。アクセント、YouTubeからの音声、クロストークや静かな話し方のセクションなど、同じ場所の多くで混乱していました。ただし、HappyScribeとまったく同じ方法で誤記されることはありませんでした。上からのUrbanDictionaryの文は、「Urban Dictionaryでも、それらを調べることができるという意味です」と表示されました。
全体として、Trintのトランスクリプトは、Happy Scribeのトランスクリプトよりも少し読みやすくなっています。これは、話者を区別し、新しい段落に分割するのに優れているためです。完璧ではありませんが、機能するときに多くの明確さが追加されます。
Sonixは50%で次に最も正確であることが証明されました。 Sonixは、1人のスピーカーが大声で話しているときに、HappyScribeやTrintよりもわずかにうまく機能しました。しかし、クロストーク、バックグラウンドノイズ、さらには笑い声など、実際のツールの使用で発生する可能性のあるすべてのものが、他のツールよりも混乱しているように見えました。アーバンディクショナリの文を「アーバンディクショナリで開くと、それらのいくつかを調べることができます」とキャプチャされました。
他のツールと同様に、Sonixはスピーカーを別の段落に分割しようとしましたが、それは少し悪いようでした。
記録的には、自動転記ツールの中で最も精度が低く、48%の精度でした。それは、UrbanDictionaryの文を「そのUrbanDictionaryを開かせてください。いくつか通過してください。」これは悪いことではありませんが、そのテキストのチャンクは残りのトランスクリプトを表すものではありません。 YouTubeと同様に、Recordlyのトランスクリプトは1つの巨大なテキストブロックです。 YouTubeとは異なり、句読点は追加されますが、他のツールよりも頻度が低く、精度も低くなります。
Recordlyトランスクリプトは、文脈から見て最も役に立たないものです。
全体として、最高のトランスクリプトは、oTranscribeを使用した自分の手からのものでした。 Revは、自分で書き写す必要がなかった最高の写しを見つけました。しかし、これは自動転記ツールのレビューであり、そのカテゴリでは、HappyScribeがTrintをかろうじて追い抜いてトップに立っています。
機能(勝者:Sonix)
いくつかのことは、自動転記ツールの業界標準のようです。アップロードされたオーディオを再生する機能は明らかです。すべてのツールを使用すると、ユーザーはさまざまな形式でトランスクリプトをエクスポートできます。
ブラウザベースのツール(Recordlyを除くすべてを意味します)も、共通のスイートを提供します。すべて、ユーザーはテキスト内のさまざまなポイントをクリックして、録音のその部分に直接スキップできます。それらはすべて、低速でオーディオを再生する(ショートカットキーを使用するか、設定をいじることによって)、トランスクリプトを手動で編集する、オーディオに加えてビデオをアップロードする、後で使用するためにトランスクリプトを保存するオプションがあります。
Trintは一歩先を進み、トランスクリプトの下部にある音声の視覚化された波形を特徴としており、ユーザーは自由にスキップできます。また、テキストを検索して置換、強調表示、または削除するための組み込みツールもあります。ユーザーは、スピーカーの名簿をツールに追加し、各段落に自分の名前を付けることができます。また、ワンクリックでトランスクリプトを電子メールで送信する便利な機能もあります。
Sonixは、これらすべてのツール(インタラクティブ波形を除く)とその他のいくつかのツールを備えています。最も役立つのは「自信の色」です。これは、Sonixが自信を持っていない単語にさまざまな色を割り当てます。 Sonixがその文字起こしにどれほど自信を持っているかを示すオーディオ品質評価者。自動話者識別。さまざまな話者を識別してIDを割り当てようとするベータ機能です。
私たちのテストでは、Sonixは2つの異なるスピーカーしか識別しなかったため、このツールには多少の作業が必要ですが、それでも非常に役立ちます。
記録的に、束の中で唯一のアプリ(iOSのみ)は、最も少ない機能を提供します。それはほとんど記録と待機の経験です。トランスクリプトは、編集機能が制限された、Appleの組み込みのメモアプリと同様の形式で配信されます。また、ユーザーはオーディオまたはテキストを別のアプリにエクスポートできます。
Trintの検索と置換および波形機能は、文字起こしを修正するときに役立ちますが、Sonixの機能は、文字起こしプロセスに重要な透明性を追加します。話者識別ベータ版は完全に信頼できるものではありませんが、ここからのみ改善される野心的なツールです。
タイミング(勝者:Happy Scribe、 トリント と 記録的に)
ここで自動文字起こしが光ります。すべてのツールは、提出したオーディオファイルの長さよりも短い時間でトランスクリプトを提供しました。 Happy Scribe(5分)、Trint(6分)、Recordly(6分)の違いはごくわずかでしたが、Sonixはもう少し時間がかかりました(11分)。 (更新:Sonixの担当者から、話者識別機能をオフにしたときの速度は他のツールと同じであるとの連絡がありました。) 実際の設定では、これは、特に長い文字起こしの場合、決定的な違いになる可能性があります。
YouTubeはここでは少し謎です。このトランスクリプトでは、自動キャプションが表示されるまでに数分しかかかりませんでした。過去の経験では、それらが表示されるまでにかかる時間はかなり異なる可能性があることがわかりました。 YouTubeは実際にはこのように使用されることを意図していないため、通常どのくらいの時間がかかるかはわかりません。
Revの人間の筆記者が筆記録を完了するのに約4時間15分かかりました。私がoTranscribeを使って自分でそれを行うのに、その約半分を要しましたが、いくつかの休憩なしではありませんでした、Spotify’s ディープフォーカス プレイリストと2ガロンのコーヒー。
価格(勝者: 記録的に)
無料(YouTube、oTranscribe)に勝るものはありませんが、専用の自動文字起こしツールに関しては、コストは大きく異なります。最適な価格を決定するには、ツールを使用する頻度を検討する必要があります。
Sonixは最も高価で、基本プランは月額$ 15から始まり、音声文字変換された音声の1時間ごとに$8が加算されます。しかし、このツールは、毎月ではなく毎年支払うことで、33%の大幅な割引を提供します。
Trintはまた、有料の音声文字変換の場合は1時間あたり15ドルから、音声文字変換の最大3時間分の場合は月額40ドルからのプランを提供しています。追加の文字起こしは、1時間あたり13ドルのすぐ北にかかります。
Happy Scribeは、アップロードされたオーディオの1分あたり一律10セントの費用がかかります。数学に傾倒していないタイプの場合、1時間あたり6ドルです。
1時間あたりわずか2ドルで、最初の1時間は無料で、Recordlyははるかに安価な自動文字起こしオプションです。
当然のことながら、Revの人間の筆記者は他のツールよりもコストがかかります。 13分間のクリップの転写には14ドルかかり、タイムスタンプにはさらに3.50ドルを支払いました。それでも、関係する作業時間の相対的なコストが安いため、Revの筆記者は世界のどこにいて、どれだけ補償されているのか不思議に思います。
使いやすさ(勝者: トリント)
これらのツールはどれも使いにくいものではありません。それぞれにファイルをアップロードし(または、Recordlyの場合はそれを使用して音声を録音し)、しばらくすると、編集可能なトランスクリプトへのリンクが送信されます。
Trintは、ファイルのアップロードを超えて大きな一歩を踏み出し、Dropbox、Googleドライブ、FTPなどのさまざまなソースからのオーディオまたはビデオを受け入れ、ユーザーがリンクを入力するだけで済むようにします。これは、私たちがテストしたツールの中でユニークです。 Trintはまた、アップロードを開始する前に、バックグラウンドノイズ、クロストークなどについていくつかの役立つ質問をします。録音は修正されませんが、将来、より多くの文字起こし可能な音声を録音する方法をユーザーに教える、便利なUXのうなずきです。
Happy Scribe、Rev、Sonix、Trintはすべて、文字起こしの準備ができたときにメールを送信するため、座って画面を見つめる必要はありません。
結論
これは最も安価ではなく、利用可能な最も全体的に正確な全体的な文字起こしオプションでもありませんが、Trintは、テストしたツールの中で最高の万能ツールとして勝利を収めました。
設立から1年余りで、KnightFoundationから資金提供を受けている会社です。 (免責事項:ポインターも 受け取る ナイトからの資金提供) Googleのデジタルニュースイニシアチブは、機能性、正確性、使いやすさの全体的な最高の組み合わせを提供します。
72%の正解率を記録したYouTubeの自動キャプション機能だけが、アルゴリズム主導の文字起こしでTrintよりも大幅に優れていました。ただし、YouTubeは、ジャーナリストが日常的に必要とする種類の文字起こし用に設計されておらず、いかなる種類の編集機能も提供していません。
若いスタートアップのHappyScribeは、62%のレートで精度テストをわずかに上回り、Trintの約3分の1の価格で提供されていますが、Trintを便利にする追加機能の多くが欠けています。多くのソースからアップロードし、テキストと話者IDを見つけて置き換える機能は小さいですが、重要なワークフローツールです。すばやく汚いトランスクリプトを探しているだけなら、HappyScribeが最適かもしれません。
そして、その61%が完璧にはほど遠いのは事実ですが、私たちのテストは、実際のほとんどの用途よりも少し困難でした。
また、人間の翻訳サービスであるRevと、ジャーナリストが自分で音声を翻訳するための便利なツールを提供するoTranscribeもテストしました。音声文字変換の1分あたり1ドルで、Revは、平均的なジャーナリストが定期的に使用するには高すぎることがわかりました。また、oTranscribeは便利でしたが、文字起こしの面倒で時間のかかる問題を解決することはできません。
典型的な使用法を念頭に置いて、Trintはジャーナリストにとって最高の万能自動転記ツールです。
訂正:Sonixはそうではないことを以前に報告しました オファー ツールを見つけて交換しますが、実際にはそうです。見落としたことをお詫び申し上げます。
Try This!でジャーナリズムツールの詳細をご覧ください。 —ジャーナリズムのためのツール。これを試して!によって供給されています Googleニュースラボ 。それはまたによってサポートされています アメリカンプレスインスティテュート そしてその ジョンS.とジェームズL.ナイト財団