What is Fish Audio S2 Pro?

Fish Audio S2 Pro is a leading text-to-speech model with fine-grained inline control of prosody and emotion. Trained on over 10M+ hours of audio data across 80+ languages, it combines reinforcement learning alignment with a Dual-Autoregressive (Dual-AR) architecture — a 4B-parameter Slow AR for semantic prediction and a 400M-parameter Fast AR for acoustic detail. The release includes model weights, fine-tuning code, and an SGLang-based streaming inference engine.

How does fine-grained inline control work?

S2 Pro enables localized control over speech generation by embedding natural-language instructions directly within the text using [tag] syntax. Rather than relying on a fixed set of predefined tags, S2 Pro accepts free-form textual descriptions — such as [whisper in small voice], [professional broadcast tone], or [pitch up] — allowing open-ended expression control at the word level. Over 15,000 unique tags are supported, including [pause], [emphasis], [laughing], [excited], [whisper], [singing], and many more.

What is the streaming performance of S2 Pro?

On a single NVIDIA H200 GPU, S2 Pro achieves a Real-Time Factor (RTF) of 0.195, time-to-first-audio of ~100ms, and throughput of 3,000+ acoustic tokens per second while maintaining RTF below 0.5. The SGLang-based inference engine inherits all LLM-native serving optimizations — including continuous batching, paged KV cache, CUDA graph replay, and RadixAttention-based prefix caching.

How many languages does S2 Pro support?

S2 Pro supports 80+ languages. Tier 1 languages (highest quality) include Japanese, English, and Chinese. Tier 2 languages include Korean, Spanish, Portuguese, Arabic, Russian, French, and German. Many additional languages are supported including Swedish, Italian, Turkish, Dutch, Hindi, Thai, Vietnamese, and more.

What is the license for S2 Pro?

S2 Pro is licensed under the Fish Audio Research License. Research and non-commercial use is permitted free of charge. Commercial use requires a separate license from Fish Audio — contact business@fish.audio for details.

Fish Audio S2

史上最も表現力豊かな
音声AIが誕生、
オープンソースで公開。

信じられないほどリアルな音声を生成

Fish Audio S2を試す

S2の特徴

表現力、スピード、オープン性のためにゼロから構築。

超低レイテンシー

150ms未満の応答時間でリアルタイム会話AI、ライブ吹き替え、インタラクティブ音声アプリケーションを実現。品質を犠牲にしないプロダクション対応のパフォーマンス。

<150ms

オープンドメイン制御＆マルチスピーカー

自然なテキスト指示で感情やパラ言語などを制御。笑い声、ささやき、ため息、あらゆる表現要素を追加可能。シームレスなマルチスピーカー会話 — 単一の生成内で自然にスピーカーを切り替え。

<|speaker:1|> [giggles]

完全オープンソース

推論コードとモデルウェイトの両方が完全にオープンソース。自社インフラで実行し、データでファインチューニングし、ベンダーロックインなしで統合。透明性とコミュニティ主導のイノベーションのために構築。

Built with SGLang

Fish Audio S2 APIで構築

80以上の言語で、感情、指示、マルチスピーカー制御を備えたリアルな音声を生成。

from fishaudio import FishAudio
from fishaudio.utils import save

# Initialize with your API key
client = FishAudio(api_key="your_api_key_here")

# Generate speech
audio = client.tts.convert(text="Fish Audio S2 is the best voice AI model.", model="s2-pro")
save(audio, "welcome.mp3")

よくある質問

Fish Audio S2 Proは、韻律と感情のきめ細かなインラインコントロールを備えた最先端のテキスト読み上げモデルです。80以上の言語にわたる1,000万時間以上の音声データで訓練され、強化学習アラインメントとデュアル自己回帰（Dual-AR）アーキテクチャを組み合わせています。40億パラメータのSlow ARが意味予測を、4億パラメータのFast ARが音響ディテールを担当します。モデル重み、ファインチューニングコード、SGLangベースのストリーミング推論エンジンが公開されています。

S2 Proは、[tag]構文を使用してテキスト内に自然言語の指示を直接埋め込むことで、音声生成のローカル制御を実現します。定義済みタグセットに依存するのではなく、[whisper in small voice]、[professional broadcast tone]、[pitch up]などの自由形式のテキスト記述を受け入れ、単語レベルでのオープンエンドな表現制御を可能にします。[pause]、[emphasis]、[laughing]、[excited]、[whisper]、[singing]など、15,000以上のユニークなタグがサポートされています。

単一のNVIDIA H200 GPUで、S2 ProのリアルタイムファクターRTFは0.195、最初の音声出力までの時間は約100ミリ秒、スループットは毎秒3,000以上の音響トークンを達成し、RTFを0.5以下に維持します。SGLangベースの推論エンジンは、連続バッチ処理、ページドKVキャッシュ、CUDAグラフリプレイ、RadixAttentionベースのプレフィックスキャッシングなど、すべてのLLMネイティブサービング最適化を継承しています。

S2 Proは80以上の言語をサポートしています。Tier 1言語（最高品質）には日本語、英語、中国語が含まれます。Tier 2言語には韓国語、スペイン語、ポルトガル語、アラビア語、ロシア語、フランス語、ドイツ語が含まれます。スウェーデン語、イタリア語、トルコ語、オランダ語、ヒンディー語、タイ語、ベトナム語なども対応しています。

S2 ProはFish Audio Research Licenseの下でライセンスされています。研究および非商用利用は無料で許可されています。商用利用にはFish Audioからの別途ライセンスが必要です。詳細はbusiness@fish.audioまでお問い合わせください。

Fish Audio S2

信じられないほどリアルな音声を生成

S2の特徴

超低レイテンシー

オープンドメイン制御＆マルチスピーカー

完全オープンソース

Fish Audio S2 APIで構築

よくある質問

Fish Audio S2 Proとは？

きめ細かなインラインコントロールはどのように機能しますか？

S2 Proのストリーミング性能は？

S2 Proは何言語に対応していますか？

S2 Proのライセンスは？