Fluency Lab

An AI-powered speech coaching platform.

Features

🎥 Video Recording: Record practice sessions using webcam or upload pre-recorded videos
🎤 Speech Transcription: Automatic transcription using ElevenLabs Speech-to-Text
🤖 AI Feedback: Comprehensive analysis using Google Gemini AI
📈 Progress Tracking: View your improvement over time with detailed analytics
💬 Practice Scenarios: Pre-defined scenarios for job interviews, presentations, and more

Tech Stack

Framework: Next.js 14 (App Router)
Language: TypeScript
Styling: Tailwind CSS
UI Components: shadcn/ui
Database: MongoDB
APIs: ElevenLabs Speech-to-Text, Google Gemini (required)
Charts: Recharts

Getting Started

Prerequisites

Node.js 18+
MongoDB (local or cloud instance) - Required
ElevenLabs API key (required)
Google Gemini API key (required)

Local Installation

Clone the repository:

git clone <repository-url>
cd DeltaHacks12

Install dependencies:

npm install

Set up environment variables:

cp .env.local.example .env.local

Edit .env.local and add your API keys:

MONGODB_URI: Your MongoDB connection string
ELEVENLABS_API_KEY: Your ElevenLabs API key
GOOGLE_GEMINI_API_KEY: Your Google Gemini API key
NEXTAUTH_SECRET: A random secret string (generate with openssl rand -base64 32)
FFMPEG_VM_URL: (Optional) URL of FFmpeg service on VM (e.g., http://45.77.218.210:3001)
FFMPEG_API_KEY: (Optional) API key for FFmpeg VM service (must match VM service config)

Run the development server:

npm run dev

Open http://localhost:3000 in your browser.

Project Structure

├── app/
│   ├── (auth)/          # Authentication pages
│   │   ├── login/
│   │   └── register/
│   ├── api/             # API routes
│   │   ├── upload/      # Video upload endpoint
│   │   ├── presage/     # Biometric processing
│   │   ├── whisper/     # Transcription (ElevenLabs)
│   │   ├── gemini/      # AI analysis
│   │   └── process/     # Full pipeline
│   ├── dashboard/       # User dashboard
│   ├── practice/        # Practice recording page
│   └── feedback/[id]/   # Feedback report page
├── components/
│   ├── recording/       # VideoRecorder component
│   ├── feedback/        # BiometricChart, SpeechAnalysis
│   └── ui/              # shadcn/ui components
├── lib/
│   ├── db/              # MongoDB connection
│   ├── presage/         # Presage SDK integration (TODO)
│   ├── elevenlabs/      # ElevenLabs transcription
│   └── gemini/          # Gemini analysis
└── types/               # TypeScript type definitions

Processing Pipeline

Upload: Video is uploaded and stored (S3 or local)
Extract Biometrics: Presage SDK processes video for biometric data
Transcribe: ElevenLabs Speech-to-Text transcribes the audio
Analyze: Google Gemini generates comprehensive feedback
Display: User views detailed feedback report

Presage Integration

The Presage SDK integration is currently using mock data. To integrate the actual Presage SDK:

Review the TODO comments in lib/presage/processor.ts
Install the Presage SDK package
Update processPresageData() function with actual SDK calls
Map Presage response format to our BiometricData interface

Key questions to clarify with Presage team:

SDK API structure and authentication
Video format requirements
Response data format
Processing time estimates
Rate limits

API Routes

POST /api/upload - Upload video file
POST /api/presage - Process biometric data
POST /api/whisper - Transcribe audio (using ElevenLabs)
POST /api/gemini - Generate feedback
POST /api/process - Run full processing pipeline
GET /api/recordings - Get user's recordings
GET /api/feedback/[id] - Get feedback report

Database Schemas

Users

{
  id: string;
  email: string;
  name: string;
  createdAt: Date;
  preferences: {
    language?: string;
    notifications?: boolean;
    theme?: 'light' | 'dark' | 'system';
  };
}

Recordings

{
  id: string;
  userId: string;
  videoUrl: string;
  duration: number;
  status: RecordingStatus;
  createdAt: Date;
}

BiometricData

{
  id: string;
  recordingId: string;
  heartRate: number[];
  breathing: number[];
  facialExpressions: FacialExpression[];
  timestamps: number[];
}

Transcriptions

{
  id: string;
  recordingId: string;
  text: string;
  words: Word[];
  wordTimestamps: WordTimestamp[];
  metrics: SpeechMetrics;
}

FeedbackReports

{
  id: string;
  recordingId: string;
  overallScore: number;
  biometricInsights: {...};
  speechInsights: {...};
  recommendations: Recommendation[];
}

Development Notes

All API routes include error handling with try-catch blocks
Presage integration uses placeholder data until SDK is integrated
Processing status is tracked through the pipeline
TypeScript strict mode is enabled
Dark mode support with system preference detection

Future Enhancements

Real-time processing status updates with WebSockets
Group practice sessions
Advanced visualizations
Mobile app optimization
Social features and community
Custom practice scenarios
Export reports as PDF

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 66 Commits
.cursor		.cursor
__pycache__		__pycache__
app		app
components		components
lib		lib
public		public
scripts		scripts
types		types
vm-ffmpeg-service		vm-ffmpeg-service
.eslintrc.json		.eslintrc.json
.gitignore		.gitignore
.npmrc		.npmrc
Fluency Lab.png		Fluency Lab.png
Group 42.png		Group 42.png
IMPLEMENTATION_SUMMARY.md		IMPLEMENTATION_SUMMARY.md
README.md		README.md
README_video_quiz.md		README_video_quiz.md
RESTART_SERVER.md		RESTART_SERVER.md
WIN_20260110_23_17_11_Pro.mp4		WIN_20260110_23_17_11_Pro.mp4
WIN_20260110_23_17_11_Pro_confidence_graph.png		WIN_20260110_23_17_11_Pro_confidence_graph.png
WIN_20260110_23_17_11_Pro_engagement_graph.png		WIN_20260110_23_17_11_Pro_engagement_graph.png
WIN_20260110_23_17_11_Pro_quiz.txt		WIN_20260110_23_17_11_Pro_quiz.txt
fluent-ffmpeg.d.ts		fluent-ffmpeg.d.ts
middleware.ts		middleware.ts
newprompt.txt		newprompt.txt
next.config.js		next.config.js
package-lock.json		package-lock.json
package.json		package.json
postcss.config.mjs		postcss.config.mjs
requirements.txt		requirements.txt
tailwind.config.ts		tailwind.config.ts
test-mongodb-connection.js		test-mongodb-connection.js
tsconfig.json		tsconfig.json
video_quiz_generator2.py		video_quiz_generator2.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Fluency Lab

Features

Tech Stack

Getting Started

Prerequisites

Local Installation

Project Structure

Processing Pipeline

Presage Integration

API Routes

Database Schemas

Users

Recordings

BiometricData

Transcriptions

FeedbackReports

Development Notes

Future Enhancements

License

About

Uh oh!

Releases

Packages

Contributors 3

Uh oh!

Languages

VainerAriel/DeltaHacks12

Folders and files

Latest commit

History

Repository files navigation

Fluency Lab

Features

Tech Stack

Getting Started

Prerequisites

Local Installation

Project Structure

Processing Pipeline

Presage Integration

API Routes

Database Schemas

Users

Recordings

BiometricData

Transcriptions

FeedbackReports

Development Notes

Future Enhancements

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Uh oh!

Languages

Packages