Speech AI
Ses Tanıma AI: Speech-to-Text ve Voice Assistant
Konuşmayı metne çeviren (STT) ve metni konuşmaya çeviren (TTS) yapay zeka sistemleri. Whisper AI, Google Cloud Speech, sesli asistan ve call center otomasyon çözümleri.
🎤Ses Tanıma Teknolojileri
Automatic Speech Recognition (ASR), konuşulan sözleri otomatik olarak metne dönüştürür. %90-98 doğruluk oranına ulaşabilir.
Whisper AI (OpenAI)
• Dil: 99 dil (Türkçe dahil)
• Doğruluk: %95-98
• Maliyet: $0.006/dakika
• Özellik: Gürültü toleransı yüksek
Google Cloud Speech
• Dil: 125+ dil
• Doğruluk: %92-96
• Maliyet: $0.024/dakika
• Özellik: Real-time streaming
Azure Speech
• Dil: 100+ dil
• Doğruluk: %93-97
• Maliyet: $1/saat
• Özellik: Speaker diarization
Whisper AI Kullanımı
# OpenAI Whisper ile ses tanıma
from openai import OpenAI
client = OpenAI()
# Ses dosyasını transkrip et
audio_file = open("konusma.mp3", "rb")
transcript = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
language="tr" # Türkçe
)
print(transcript.text)
# Output: "Merhaba, bugün hava çok güzel."
# Timestamp ile (kelime zamanlamaları)
transcript = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
response_format="verbose_json",
timestamp_granularities=["word"]
)
for word in transcript.words:
print(f"{word['word']}: {word['start']}s - {word['end']}s")Text-to-Speech (TTS)
# OpenAI TTS ile metni sese çevirme
from openai import OpenAI
from pathlib import Path
client = OpenAI()
speech_file_path = Path("output.mp3")
response = client.audio.speech.create(
model="tts-1-hd", # Yüksek kalite
voice="nova", # alloy, echo, fable, onyx, nova, shimmer
input="Merhaba! Ben yapay zeka sesli asistanınızım."
)
response.stream_to_file(speech_file_path)
# ElevenLabs (En doğal ses)
from elevenlabs import generate, play
audio = generate(
text="Merhaba, nasılsınız?",
voice="Bella", # veya custom voice
model="eleven_multilingual_v2"
)
play(audio)Call Center Otomasyon
Sesli IVR Sistemi
%80
Otomatik Çözüm
24/7
Kesintisiz Hizmet
60%
Maliyet Azalma
Örnek Kullanım Alanları:
- ✓ Müşteri hizmetleri: Sipariş durumu, iade, şikayet
- ✓ Randevu sistemi: Sesli randevu oluşturma/iptal
- ✓ Anket: Otomatik telefon anketleri
- ✓ Bilgilendirme: Kampanya duyuruları
Maliyet Analizi
| Servis | STT Maliyet | TTS Maliyet | Türkçe Kalite |
|---|---|---|---|
| Whisper AI | $0.006/dk | $15/1M karakter | Mükemmel (95%+) |
| Google Cloud | $0.024/dk | $16/1M karakter | Çok İyi (93%+) |
| Azure Speech | $1/saat | $15/1M karakter | Çok İyi (94%+) |
Örnek ROI: Call Center
• Öncesi: 10 çağrı merkezi çalışanı (7K TL/ay) = 70K TL/ay
• Sonrası: 3 çalışan + AI (15K TL/ay) = 36K TL/ay
• Tasarruf: 34K TL/ay = 408K TL/yıl
• Yatırım: Sistem kurulumu 120K TL
• ROI: 3.5 ay
Sesli AI Sisteminizi Kuralım
Speech-to-text, text-to-speech ve sesli asistan çözümleri ile müşteri deneyimini geliştirin.
Demo İste→