Suno AIが本当に楽しいですね!
Suno AIは詞と曲のスタイルを指定するだけで曲を生成できる生成AIサービスです。
気がつけばプレミアプランに入っており、そこで手に入れたクレジットもあと何日持つんだ・・・という状況です。(昨日1日で1000クレジットぐらい消費した)
それだけ、遊び倒しているといろいろ気になったり、改善しようとして失敗するわけで・・・そういった話をいくつか紹介します。
ChatGPTの作る詞が恥ずかしい
まず、ChatGPTで作成した歌詞を見てください。
タイトル: 「回る、回れ」
テーマ: 「人生のサイクルと共鳴」 感情: 「遊び心と深い絆」
メタファー:
クルクル回る = 人生の不確かさと楽しさ
共に回る = 人とのつながりと共感
この情報に基づき、以下の歌詞を作成します。
歌詞:
[Intro]
光る陽の下で 一人クルクルと
不意に巻き込まれて 君と回る世界
[Verse]
街角で見かけた あの人の笑顔
無邪気に回る姿に 心奪われて
ふと気づけば 君と手を取り
クルクル回る 日々の中で
[Pre-Chorus]
時は流れゆく くるくるとまわる
ふたりの足跡が 重なり合って
[Chorus]
回る、回れ 光の中で 君とならどこまでも行ける
回る、回れ 風に乗って この瞬間(とき)を 永遠(とわ)にしたい
[Bridge]
回り続ける この世界で
君がいるから 笑顔になれる
運命さえも 踊らせて
クルクル回る 奇跡のように
[Chorus]
回る、回れ 星空の下 君との日々が 輝いている
回る、回れ 時を超えて この想いを 伝えたい
[Chorus]
回る、回れ ずっと一緒に 君とならば 何も怖くない
回る、回れ 夢の中で ずっとこのまま ふたりで
[Outro]
回り続ける この想いを 君と共に 繋いでいこう
クルクルと
ファーストカラー: 「yellow」
セカンドカラー: 「blue」
シーン: 「sunny day」
指示自体は簡単でユーザーの入力したタイトルに基づいて、テーマ、メタファー、歌詞、画像生成で使う情報を出力するようにしているだけです。
これで10曲ぐらい作ったのですが、どうもChatGPTで詞を作ると頻出ワードがいくつもあるようです。
光る陽の下で
○○の世界
あの人の笑顔
心奪われて
日々の中で
時は流れ
君と○○
○○が重なり合って
光の中で
この瞬間
永遠
奇跡
星空の下
輝いている
時を超えて
夢の中で
他にも冒険に出たり、物語を始めたり、メロディを奏でたりと挙げだすとキリがありません。
こうなるのはおそらく歌詞でよく使われる定番ワードだからでしょうね。ただ、何というか全盛りセットは本当にやめて欲しいです。恥ずかしすぎるというのもありますが、10曲を超え出すとまた同じような歌詞になったと思う瞬間もでてくるのでよくありません。
また、タイトルを入れるとそれを絶対にChorus入れてくるのも同じような感じに拍車をかけてきます。
もちろんChatGPTと対話して修正することもできます。
ただ、これもキリがないというか、修正したらまた新しい頻出ワードが出てくることも多く時間がかかります。
なら、どうするべきかと言えば自分で詞を書くんですよ!最近ではタイトルを入力して詞の方向性を作って、自分で詞を書きなおすというような使い方をしています。
ただし、この手法は書き直した版をここに貼れないぐらいセンシティブですし、もし詞について何か言われたら立ち直れなくぐらいには諸刃の剣です。(書き直した版に興味がある方はYoutubeに曲と詞をアップロードしているので探してください)
J-POPのような構成の曲作り
まず、Suno AIでは1回の実行で最大1分20秒までしか曲が作れません。その上で長いを曲を作りたい場合には「Continue From This Clip」を使って繋いでいき、最後に「Get Whole Song」で曲を繋ぐことで曲を作ることができます。
詳しくはこちらを参照してください。
これは不確実な話ですが、動作を見てる限りContinue From This Clipを使う場合は前の曲を参照してそこに繋がる曲を生成しているように見えます。
そのため、Aメロを繰り返したい場合は
Aメロの詞を入れる
1で生成した曲でContinue From This Clipを指定し新しいAメロの詞を入れて生成する
というように直前の曲に続けることで、同じAメロを生成する確率を上げることができます。(これは完全にガチャですが詞のテンポが近ければ比較的同一になりやすい)
では、J-POPのような構成の曲を作りたいと考えると イントロ → Aメロ → Bメロ →サビ → Aメロ → Bメロ → サビ → Cメロ → サビ → サビ → アウトロ というような構成を作らないといけません。
これをSuno AIに合わせると
[Intro] → [Verse] → [Pre-Chorus] →[Chorus]
[Verse] → [Pre-Chorus] → [Chorus]
[Bridge] → [Chorus]
[Chorus] → [Outro] (入るなら3で一度に作っても良い)
というように直前の入力で同じメロディが存在するように詞の入力が必要になります。
ここで問題になるのが1分20秒制限で主に1と2が時間内に収まりません。もちろん収まるケースもあるのですが、その曲が気にいるかはまた別の話です。お、これいいじゃんと思った曲ほど収まらないか、早く終わって長い間奏が入る、謎のAメロが始まる、謎言語で歌いはじめるという現象がおきます。
また、運が良く1が成功したからと言って油断は禁物です。なぜなら2が同じになるという保証はないからです。
同じAメロを生成する確率を上げることができます
と、書いた通り比較的同じになりやすいというだけです。Verseは同じようになったが、Pre-ChorusとChorusが全然違うなど当たりを引くにはかなりの根気とクレジットが必要になります。
私はここで脱落して、最終的に1,000クレジットほどをドブに捨てました。
余談ですが、前の曲を参照するならとGet Whole Songで結合した曲でContinue From This Clipをすれば・・・と検証しましたが、これは上手くいきませんでした。このあたりの方法はそのうちDiscodeのFeedbackチャンネルで質問してみます。
音質の向上
他の曲を聴いてからSuno AIで作った曲を聴くと、クリアさに欠けるというか、すこしぼやけてるというか、すこしノイジーな感じというか、バランスが悪いというか・・・。
声の合成音声っぽさはある種しょうがないとして、それ以外のところはもう少し何とかしたいのでいろいろ試行錯誤してみました。
プロンプトの変更
まず、生成AIなのでプロンプトで指定してみます。
例えば
Hi-Fi
や
High resolution
というようなワードを含めるような形です。
僕の耳は信用できないのでこれについての是非は特に言わないです。ただ、これもやはりガチャで「ん?」と思うのはやっぱり出てきます。
欠けている高音の修復
iZotopeのRX10ではスペクトル修復機能があります。
Suno AIでは15,000Hzあたりからの音が欠落しており、そこを修復することで音質の変化させます。
と、言いたいところですが、僕もいい年なのでもう高音に自信は持てません。悲しい。
抽出、ミキシング、マスタリング
曲からボーカルや特定の楽器を抽出した上で、ノイズ除去や補正などを行い音をクリアにして、再びミキシング、マスタリングを行います。
抽出: RX10 Music Rebalance、DeMix、Lalal.AI
ノイズ除去: RX10、Melodyne、UNCHIRP、UNFILTER、UNVEIL
ミキシング: Nectar、Neutron、Neoverb
マスタリング: Ozone、INTENSITY
ツールはだいたいこのあたりを使ってやっています。
その結果がこれだよ!!!!
だいたい原因はわかっていて、そもそもの音が悪い、それが抽出でさらに悪くなり、ノイズ除去さらに悪化しているものだと思っています。あと純粋にこういうのあまりやってないので腕が悪い。
僕のこの1週間の睡眠時間を犠牲にした結果がこれですよ。
誰か元の音源を渡すので、ちゃんとやればここまでやれるというのを見せて欲しいです。
ボーカルの差し替え
合成音声はしょうがないとは言いつつ、やっぱり何とかしたいと思いいくつかAI系のツールも試してます。
これが、上手くいくなら複数の曲で一貫性のある声を実現できるので一石二鳥で嬉しい!とはなっていたのですが、結果はうん、まぁ・・・という感じです。
何というかさらに合成音声感が増すような形ですね。
ただ、この分野は成長が激しいところなので、今後に期待したいです。
音質向上に今やってること
最終的に今では簡単な処理だけやって出すようにしています。
ノイズ除去: RX10、UNCHIRP、UNFILTER
リバーブ調整: RX10 De-reverb、UNVEIL、Neoverb
調整: Ozone、INTENSITY
1、2は全部はやらないし、やっても本当に軽くかけるだけという感じです。
まぁその結果としては元よりこちらの方が多少好み・・・というぐらいなので、もし今からこの辺を揃えようと思っている人にはやめておけと伝えておきます。
おわりに
というわけで、だいたい最近やって失敗してた話でした。
この手の話はAIの進化の激しい昨今では、将来的に改善される可能性が高い話ばかりです。
じゃあ、何でわざわざやるかと言うと「今欲しいんだよ!!!」という心の叫びは置いたとしても、AIを使う側が何が悪くて、どうするとを良いかをわかっていると安定した品質を作り続けることができるからですね。
例えば画像の生成にしても、その絵が良いのか悪いのかわかる審美眼と、それをAIに伝える言語力と、それを自力で修正できる力は一定必要です。こういった能力は漠然とAIを使っていても手に入りません。なので能力を高めるために手と頭は動かさないといけないです。
それにしても、抽出・ミキシング・マスタリングはワンチャンないかな・・・と未だに希望を捨て切れないです。音源出すから誰かやってくれないかなぁ。本当に上手くやれるならUSDCで$500ぐらいなら全然出すのに