はじめに

テレビ や Youtube から流れてくるナレーションを聞いているとリップノイズやバックグランドノイズ、歪みが気になるときが多々あります。もはや職業病です。

レコーディングスタジオや MA スタジオのアシスタントを経験したことのある方なら味わったであろう、ひたすらノイズを探し、消す作業があります。最近は制作費が少なく知識もないのに「映像編集ができるから音声編集もできるでしょ?」と思われ、大した MA も行われずの制作現場が多いです。実際広告代理店と仕事をしているのでその実情は身にしみて理解しております。

映像の現場では素材が様々です。ナレーションの場合は比較的録音環境がいい場合が多いので、逆に音声中のノイズが気になる場合があり、アフレコの素材もその傾向が強く、撮影時に収録した素材の場合、予期せぬ雑音と環境音が多いです。そのかわり、環境音を作品の一部と割り切れば、制作的に問題はない場合も多く、手間が必要ない場合もあります。

私が音声を納品するために行っていることを紹介していきます。

16bit/48kHz で収録する。

ナレーションやアフレコの制作現場であれば、スタジオで収録することになります。自分がエンジニアでディレクションしながら収録することは多いです。Skype 経由でディレクションして収録することもあります。そのときに必ず聞かれるのは、セッションフォーマットです。

外部収録の場合、最近は 24bit/96kHz で収録できるレコーダーなどありますが、音楽ならともかく、人の声に 24bit/96kHz は必要ありません。2時間や3時間収録すればデータ量も馬鹿にできません。また、現在映像で採用されている音声フォーマットは 16bit/48kHz です。ビット数やサンプルレートを変更する場合、専門的な知識とプラグインがないとノイズが増えます。

後々の制作のスムースや難しいことは抜きに考えたい場合が多いので、16bit/48kHz で統一してます。もちろんクライアント側の指定したフォーマットがある場合はそれに合わせて収録納品します。特に力を入れてフィールドレコーディングするクライアントもいます。

ダウンビット、ダウンサンプルレートに必要な知識とプラグイン

業界スタンダートとして、24bit/48kHz や 32bit/48kHz での収録が圧倒的に多いです。ただし、映像フォーマットにした場合、音声は 16bit/48kHz に変換しなければならず、それは圧縮コーデックが行ってくれます。ただし、16bit にダウンビットする場合、適切な処理をしないとノイズが増えます。

画像でも色の数を減らしてデータ圧縮するときディザーという処理をしないとグラデーションが汚くなったりします。これと同じ様に、ただ、データをビットダウンした場合、音声も原音からかなり変化することになります。このために ビットダウンするときは音声もディザー処理が必要なのですが、それを回避したいために 16bit/48kHz で最初から制作します。ディザーはある種のノイズを加えてノイズシェービングするのですが、ディザー自体のノイズを回避したいためです。

ただし、全て自分たちのフォーマットで収録した音声ではないことは制作現場では多々あります。そのために、収録フォーマットを揃えること大変重要なことで、もし 16bit/48kHz 以外の素材がある場合、適切な処理が必要なことを忘れないで下さい。今回はディザーについて詳しく解説はしませんが、専用プラグインが必要だということは覚えておいて下さい。

1. ノイズカット

音声を編集するとき、素材によってやり方が違いますが、今回は環境音の必要ないナレーションデータを基準に考えていきます。最近は BGM を流すので、ノイズ取りの編集をしなくてもなんとかなってしまうことが多いですが、それでもリップノイズやナレーターによっては鼻なりだったり、普段は気にならない音が収録した音声を聞くとかなり気になります。

最近はリップノイズやクリックノイズなどを自動で検出して軽減してくれる便利なソフトもありますが、音質が劣化します。できるだけ手作業で取り除きましょう。リップノイズが大きいと例え BGM がなっているものでも凄い気になります。また BGM がない喋りの部分がある場合は入念に処理しましょう。また、余計な信号はひたすらカットですが、カットし過ぎると不自然になるのでなるべく人間の息遣いなどの余韻を残しつつ、カット編集もします。


60秒 のナレーションセッションですがこの様に編集しています。

カットする上で気をつけてほしいのはブレスをカットしないことです。息継ぎなどがカットされてしまうと途端に人間味が薄れてしまいます。ですので息継ぎ、ブレスはカットしすぎないように注意して下さい。とくに息継ぎにはノイズが乗りやすい傾向にあります。


選択されている部分が息継ぎのクリップです。息継ぎはノイズが多く、音質が低下しても構わないということで iZotope RX6 で処理をしています。

またリップノイズは普段は気になりませんが、収録した音声だと途端に気になり始めます。それは普段は雑音にかき消されたり、集中して人の声を間近で聞くことはありませんが、マイク収録の場合、防音吸音された部屋でマイクに向かってオンでしゃべるのでノイズすらもきっちり収録されるためです。


このクリップにリップノイズが混じっていますが、わかりますか?

ここまで拡大すると若干ですが波形で確認できます。

いました。ギザギザしている部分がノイズです。ブチっというような音が聞こえます。

手作業で消しましょう。ProTools の場合はペンシルツールで手作業で波形を書きます。

私の場合、30秒 の テレビCM のナレーションで最後から最後まで喋りっぱなしの素材の場合、この編集だけで 30分 はかかると思います。(実際には 29秒 以内にナレーションを収めるように編集もします。)

2. 音量を揃え、音質を整える

映像畑出身の人が1番難しいと感じることは、音声編集におけるプラグインの使い方です。映像のプラグインの場合、視覚的変化は画面を見れば一目瞭然ですが、音声はそうは行きません。一体なにが変化しているのかよくわからない必須プラグインたちがあります。

コンプレッサー

これは音量差が激しい音声信号のレベルを整えるもの、と考えて下さい。ノーマライズなど一件、似たような動きをするものもありますが、全く違います。ちなみにノーマライズは私は今まで一度も使ったことはありません。

人間ですので、常に同じ声の大きさでしゃべることは困難で、特にセリフは場面により声の大小があります。ただし、声が大きすぎたり小さすぎたり、映画館などの大音量スピーカーで聞けるような環境ならまだしも パソコンスピーカ や イヤフォン で聞いている人にとっては聞き取りづらさは致命的に作品のレベルを下げてしまいます。

そのためにコンプレッサーを使い、ある程度声の量感を揃える必要があります。使い方は難しいです。コンプレッサーを制すものはミックスを制す、という言葉があるくらい、プロのエンジニアさんでもその設定には悩みます。

あくまで設定の一例ですが、人間の声に対しては Attack 早め、Release 早め、Knee 強めで、スレッショルドとゲインで音量を調整していくことが個人的には比較的多いです。また低域を圧縮させないためにサイドチェーン機能も使っているが基本的にはソースに合わせて値を決めていき、自分が気持ちいい音だと思う値になるまで弄くり倒します。コンプレッサーというエフェクトの感覚を身につけるには毎日いろんな音声にコンプレッサーをかけていっても、3ヶ月はかかるだろうし、プロのエンジニアさんに聞いても何年立っても使いこなせないと言う人もいるくらい奥が深いです。

こればかりは自分で研究するもありなのですが、最近は Youtube に動画がたくさん上がっているので how to use a compressor など打ち込んで動画を探すのが手かもしれない… あとは先輩エンジニアに教わるのが1番です。

イコライザー

こちらは数値を変更すると音が変わるのがよく分かるのでなんとなく操作の感覚がわかりやすいものになっています。ちなみにコンプレッサーをかけたあとイコライザーをかけましょう。なぜなら音量が変化するとコンプレッサーのかかり具合が変わてしまうので、先にコンプレッサーで量感をある程度揃えてからイコライザーしたほうがいいためです。


この様に音声素材の周波数分布が見えるプラグインもあります。

特に人の声は、使ったマイクで特性が変わってきます。ピンマイク (ラベリア) マイクで収録する場合、口や体に近く、声に低域成分が増えがちです。そうなった場合、コンプレッサーで圧縮された音声信号に低域がさらに増えるのでローカット (ハイパス) することが多いです。そうすることで音声がクリアに聞こえ、聞きやすくなる傾向にありますが、カットし過ぎると逆に迫力がなくなるので自分がいい音だと思う編集を心がけましょう。エフェクトはかけ過ぎは良くないということが往々してあります。


150Hz あたりから Oct 12dB でローカット、8.5kHz あたりを Q1 で 3dB ほどマイクアップ。あくまで声の EQ の一例であり、素材によってこの値は変化します。

3. 特殊なソフトウェアを使う

ポストプロダクションでは必ず使うだろう、波形編集ソフトがあります。iZotope RX シリーズです。ちなみにすべての機能を持った Advance バージョンは 10万円 くらいします。個人で持つことはほとんどありませんが、かなり使えます。

iZotope RX6 の使い方に関しては今回は触れません。皆が簡単に使えるソフトではないためです。ただし、本気で映像音声をする場合、確実に必要になるツールです。ただし専門的な知識もたくさん必要になるため、もし紹介するとなるとかなりチンプンカンプン記事に仕上がると思うので誰かが作ってくれることを願っています。

ちなみによく使うのは、De-noise、De-crackle、De-reverb、Accusonus ERA-D ですが、RX6 上でも殆ど手作業でノイズ処理していきます。

音声を書き出す前に確認すること

先程紹介した 60秒 のナレーション音声を書き出します。その時気をつけることは 1つ だけ。
マスターの信号が 0dBFS を超えないこと。
リミッターを使用することも考えますが、最近、Youtube ですら、ラウドネス調整をされるので マスターテープ を納品する人に任せてます。ラウドネスに関しては、放送業界にいる人であればよくわかっていると思うので割愛します。

細かいチェックとしては信号が歪んでいないか確認する

EQ やコンプレッサー をかけ過ぎると、0dBFS を信号が超えなくても音声信号が歪む場合があります。EQ やコンプレッサーへの入力出力信号レベルは必ず気をつけましょう。もともと歪んでいる音声は完全には修復できません。

音声に手抜きをしないこと

ノイズ取り作業はタダの苦行です。しかし、プラグインに頼らず、手作業で波形からノイズを消していくことで人の声の特徴がわかってきます。ひたすら聞いて、ひたすら処理すると、どこにノイズが発生しやすいか、どうすれば音声が聞きやすくなるのか、などが理解出来るようになります。

特に、一眼レフで録った映像でカメラ付属のマイクで録った場合、すこしだけ処理するだけでずいぶんと聞きやすい音に変身します。映像編集ソフトから wav だけを書き出して、DAW (音声編集ソフト) で処理しましょう。

また、最近は無料で高性能な DAW が発表されています。日本語での情報も増えています。
http://www.cakewalk.com/

一線で活躍している映像編集者で音声も自分で処理している人は是非、ノイズに気をつけてください。私は レコーディングエンジニア出身で現在も CM 音声やレコーディング、ライブレコーディングや PA などをこなしていますが、広告制作を機に映像制作も担当するようになり、撮影までするようになりました。時代は一人で、映像撮影、音声収録、編集作業、完パケまでを出来るようにならなければいけないくらいです。

確かに製作クオリティの低下する現実もありますが、最低限は勉強し、ツールを使いこなせるようになっていただきたいです。

33クリップする
クリップしておくと
あとからいつでも
見返したりできます。

    コメント

    • まだコメントはありません