About Projects
初めに
私たちは「VOICE CHAIN」でAIとNFTで声を資産にするのが当たり前になる世界を作ります。
背景
近年のGenerative AIの発展は目を見張るものがあります。その途轍もないスピードでの発展のなかでAIによって音声を作ったAI曲がネット上に大量に投稿され、物議を醸しています。実際にAIによってDrakeの曲を勝手に作って投稿し多くの注目を集めた後にDrake本人によってネット上から削除されてしまった例もあります。AIによる人間の表現力の拡張と、アーティストの権利保護のどちらも重要なのですが、現在アーティストの権利保護が追いついていない状況です。
私たちのプロダクト:VOICE CHAIN について
そこで私たちは「VOICE CHAIN」を作りました。
VOICE CHAINでは以下のように問題を解決します。
・RVCモデル(ボイチェンの機械学習モデル)をNFTで販売できる
・二次流通でも声の持ち主に利益が入る
・曲のクリエイターはクリーンな声変換モデルを入手できる
つまりVOICE CHAINは「スマートコントラクトにより、煩雑な声利用契約を自動化した上で、最新のAIによる声変換技術を促進するプラットフォーム」です。
1. Technicality
取り組んでいる問題の複雑さ、またはその解決へのアプローチとは?また、AI領域、またはCrypto領域の技術をどれだけ取り入れているか?
・RVC, SolidityといったAIとCryptoそれぞれの領域でかなりアツい技術を使っています。
・また、企画段階ではChatGPTをフル活用して企画を磨き上げました。
2. Originality
新しい問題や未解決の問題に取り組んでいるか、既存の問題に対してユニークで創造的な解決策を生み出しているか?
・取り組んでいる問題は声の権利(パブリシティ権)とアーティストの名前(パブリシティ権、商標権)が絡んだ非常に難しい問題です。声の持ち主からすると自分の権利を侵害して欲しくないし、曲のクリエイターからすると最新のAIを使って自由な表現をしたいはずです。この問題へのアプローチとして「声の変換モデルをNFTにし、スマートコントラクトによって手軽に取引できるようにする」という非常にシンプルかつクリティカルな解決策を提案しています。
3. Practicality
プロジェクトの完成度や機能性はどうか?想定される利用者が使用できる状態になっているか?
・全ての機能は動作しますし、aboutページや利用規約、プライバシーポリシーといったハッカソンでは抜けがちな要素もしっかりと実装し切っています。
4. Usability
プロジェクトは使いやすいか?ユーザーとの摩擦をなくすための努力がなされているか?
・必要な箇所に注意書きをおいたり、わかりやすい文言かどうかチェックをしています。
・同僚のCrypto関連PdM経験者にサービスをみていただいてフィードバックをいただいています。
5. WOW factor
従来のプロダクトにはもたらし得なかった新しい視点はあるか?
・声の変換モデルをNFTでやりとりすることでスマートコントラクトによって契約が自動化され、気軽に自分の声を資産にすることができますし、声の利用者側も明確にクリーンな声モデルを手軽に利用できます。
・従来のように声そのものをNFTにするのではなく声変換モデルをNFTにすることで、声の提供側も利用者側も1回の取引で得られるベネフィットが大きくなります。
技術
使用した技術スタック
Web: Vercel, Next.js, Recoil, Kuma UI, Ethers.js
ML: RVC, ChatGPT
Crypto: MetaMask, Polygon, Solidity
ChatGPT
素案を練るためにChatGPTを使いました。これによって、元々なかった発想として声の持ち主にフォーカスした本サービスのアイデアを得ることができました。また、今回は実装しませんでしたがIPFSと呼ばれるファイルストレージシステムの提案をされて、まさにVOICE CHAINのようなプラットフォームに適しているようだったので、今後の発展として利用を考えています。
RVC
高品質で高速に動作するボイスチェンジャーの機械学習手法です。10分程度の短い学習データで訓練した場合でも品質が高いことで知られており、有志によって周辺ソフトウェアの開発が進んでいます。また、RVCのWebUIはGoogle Colabで実行可能なので、誰でも簡単に安く使うことができます。
Webフロントエンド
Next.jsとTypeScriptを使ってモダンな開発環境で進めました。Vercelにデプロイしており、Webフロントエンド周りはかなりスピーディーに実装を進めることができました。スタイリングではチームメンバーである古瀬さんが作ったKuma UIというライブラリを使用しています。
Kuma UI
チームメンバーの古瀬さんが立ち上げ、開発を進めているOSSで、高速に動作するCSS-in-JSライブラリです。現在はゼロランタイムで実装されており技術的にも非常に面白いので、ぜひ興味のある方はリポジトリをチェックしていただけると幸いです。
メンバー
藤田智也: 企画とWebバックエンド、フロントエンドを担当
久賀瑛尚: Crypto周りとそれに関わるシステムを担当
古瀬慶大: Webフロントエンドを担当
競合
私たちが調査した結果、同じ仕組みのサービスは存在していませんでした。VOICE CHAINは声を使う人と提供する人をうまくマッチングするサービスであり、その契約や著作権周りの処理を非常にクリアにします。ある意味でVOICE CHAINはWeb 3時代のJASRACと言えるでしょう。私たちが主体となって権利の管理を実施するのではなく、非中央集権型でスマートコントラクトを利用して権利の管理をしている点が革新的です。
ビジネスモデル
VOICE CHAINではNFTが買われた際に5%の手数料をとっています。ただ、これだけだと収益の柱としては弱いので、今後はRVC学習代行のエンタープライズ向けプランの新設を考えています。大きなプロダクションとなると自分達の持っている膨大なデータの中から使えるデータを抽出して正しい形で機械学習を実行するのは手間だと思うので、そこで安心安全のプランとしてtoBのサービス提供を考えています。このエンタープライズ向けプランは月額50万円に設定する予定です。
最後に
VOICE CHAINはAIとNFTで声を資産にするのが当たり前になる世界を作っていきます。