Fish Audio S2

史上最も表現力豊かな
音声AIが誕生、
オープンソースで公開。

信じられないほどリアルな音声を生成

Fish Audio S2を試す

S2の特徴

表現力、スピード、オープン性のためにゼロから構築。

超低レイテンシー

150ms未満の応答時間でリアルタイム会話AI、ライブ吹き替え、インタラクティブ音声アプリケーションを実現。品質を犠牲にしないプロダクション対応のパフォーマンス。

Image

<150ms

オープンドメイン制御&マルチスピーカー

自然なテキスト指示で感情やパラ言語などを制御。笑い声、ささやき、ため息、あらゆる表現要素を追加可能。シームレスなマルチスピーカー会話 — 単一の生成内で自然にスピーカーを切り替え。

Image

<|speaker:1|> [giggles]

完全オープンソース

推論コードとモデルウェイトの両方が完全にオープンソース。自社インフラで実行し、データでファインチューニングし、ベンダーロックインなしで統合。透明性とコミュニティ主導のイノベーションのために構築。

Image

Built with SGLang

Fish Audio S2 APIで構築

80以上の言語で、感情、指示、マルチスピーカー制御を備えたリアルな音声を生成。

Image
from fishaudio import FishAudio
from fishaudio.utils import save

# Initialize with your API key
client = FishAudio(api_key="your_api_key_here")

# Generate speech
audio = client.tts.convert(text="Fish Audio S2 is the best voice AI model.", model="s2-pro")
save(audio, "welcome.mp3")

よくある質問

Fish Audio S2 Proは、韻律と感情のきめ細かなインラインコントロールを備えた最先端のテキスト読み上げモデルです。80以上の言語にわたる1,000万時間以上の音声データで訓練され、強化学習アラインメントとデュアル自己回帰(Dual-AR)アーキテクチャを組み合わせています。40億パラメータのSlow ARが意味予測を、4億パラメータのFast ARが音響ディテールを担当します。モデル重み、ファインチューニングコード、SGLangベースのストリーミング推論エンジンが公開されています。

S2 Proは、[tag]構文を使用してテキスト内に自然言語の指示を直接埋め込むことで、音声生成のローカル制御を実現します。定義済みタグセットに依存するのではなく、[whisper in small voice]、[professional broadcast tone]、[pitch up]などの自由形式のテキスト記述を受け入れ、単語レベルでのオープンエンドな表現制御を可能にします。[pause]、[emphasis]、[laughing]、[excited]、[whisper]、[singing]など、15,000以上のユニークなタグがサポートされています。

単一のNVIDIA H200 GPUで、S2 ProのリアルタイムファクターRTFは0.195、最初の音声出力までの時間は約100ミリ秒、スループットは毎秒3,000以上の音響トークンを達成し、RTFを0.5以下に維持します。SGLangベースの推論エンジンは、連続バッチ処理、ページドKVキャッシュ、CUDAグラフリプレイ、RadixAttentionベースのプレフィックスキャッシングなど、すべてのLLMネイティブサービング最適化を継承しています。

S2 Proは80以上の言語をサポートしています。Tier 1言語(最高品質)には日本語、英語、中国語が含まれます。Tier 2言語には韓国語、スペイン語、ポルトガル語、アラビア語、ロシア語、フランス語、ドイツ語が含まれます。スウェーデン語、イタリア語、トルコ語、オランダ語、ヒンディー語、タイ語、ベトナム語なども対応しています。

S2 ProはFish Audio Research Licenseの下でライセンスされています。研究および非商用利用は無料で許可されています。商用利用にはFish Audioからの別途ライセンスが必要です。詳細はbusiness@fish.audioまでお問い合わせください。