Speech AI

Ses Tanıma AI: Speech-to-Text ve Voice Assistant

Konuşmayı metne çeviren (STT) ve metni konuşmaya çeviren (TTS) yapay zeka sistemleri. Whisper AI, Google Cloud Speech, sesli asistan ve call center otomasyon çözümleri.

🎤Ses Tanıma Teknolojileri

Automatic Speech Recognition (ASR), konuşulan sözleri otomatik olarak metne dönüştürür. %90-98 doğruluk oranına ulaşabilir.

Whisper AI (OpenAI)

Dil: 99 dil (Türkçe dahil)
Doğruluk: %95-98
Maliyet: $0.006/dakika
Özellik: Gürültü toleransı yüksek

Google Cloud Speech

Dil: 125+ dil
Doğruluk: %92-96
Maliyet: $0.024/dakika
Özellik: Real-time streaming

Azure Speech

Dil: 100+ dil
Doğruluk: %93-97
Maliyet: $1/saat
Özellik: Speaker diarization

Whisper AI Kullanımı

# OpenAI Whisper ile ses tanıma
from openai import OpenAI
client = OpenAI()

# Ses dosyasını transkrip et
audio_file = open("konusma.mp3", "rb")
transcript = client.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file,
    language="tr"  # Türkçe
)

print(transcript.text)
# Output: "Merhaba, bugün hava çok güzel."

# Timestamp ile (kelime zamanlamaları)
transcript = client.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file,
    response_format="verbose_json",
    timestamp_granularities=["word"]
)

for word in transcript.words:
    print(f"{word['word']}: {word['start']}s - {word['end']}s")

Text-to-Speech (TTS)

# OpenAI TTS ile metni sese çevirme
from openai import OpenAI
from pathlib import Path

client = OpenAI()

speech_file_path = Path("output.mp3")
response = client.audio.speech.create(
    model="tts-1-hd",  # Yüksek kalite
    voice="nova",  # alloy, echo, fable, onyx, nova, shimmer
    input="Merhaba! Ben yapay zeka sesli asistanınızım."
)

response.stream_to_file(speech_file_path)

# ElevenLabs (En doğal ses)
from elevenlabs import generate, play

audio = generate(
    text="Merhaba, nasılsınız?",
    voice="Bella",  # veya custom voice
    model="eleven_multilingual_v2"
)

play(audio)

Call Center Otomasyon

Sesli IVR Sistemi

%80
Otomatik Çözüm
24/7
Kesintisiz Hizmet
60%
Maliyet Azalma

Örnek Kullanım Alanları:

  • Müşteri hizmetleri: Sipariş durumu, iade, şikayet
  • Randevu sistemi: Sesli randevu oluşturma/iptal
  • Anket: Otomatik telefon anketleri
  • Bilgilendirme: Kampanya duyuruları

Maliyet Analizi

ServisSTT MaliyetTTS MaliyetTürkçe Kalite
Whisper AI$0.006/dk$15/1M karakterMükemmel (95%+)
Google Cloud$0.024/dk$16/1M karakterÇok İyi (93%+)
Azure Speech$1/saat$15/1M karakterÇok İyi (94%+)

Örnek ROI: Call Center

Öncesi: 10 çağrı merkezi çalışanı (7K TL/ay) = 70K TL/ay
Sonrası: 3 çalışan + AI (15K TL/ay) = 36K TL/ay
Tasarruf: 34K TL/ay = 408K TL/yıl
Yatırım: Sistem kurulumu 120K TL
ROI: 3.5 ay

Sesli AI Sisteminizi Kuralım

Speech-to-text, text-to-speech ve sesli asistan çözümleri ile müşteri deneyimini geliştirin.

Demo İste