first commit

2024-07-08 14:15:34 +08:00 · 2024-07-08 14:15:34 +08:00 · 8bbb96fe44
commit 8bbb96fe44
8 changed files with 303 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,7 @@
 *.wav
 __pycache__
 api/tts/chatgpt_api_config.py
 dependencies/*
--- a/README.md
+++ b/README.md
--- a/api/tts/main.py
+++ b/api/tts/main.py
@ -0,0 +1,147 @@
 from flask import Flask, request, send_file, jsonify
 import requests
 import os
 import uuid
 from datetime import datetime
 from pydub import AudioSegment
 from concurrent.futures import ThreadPoolExecutor
 from queue import Queue
 import json
 from io import BytesIO
 from chatgpt_api_config import chatgpt_apis
 app = Flask(__name__)
 tts_servers = [
    'http://127.0.0.1:9995/tts',
    'http://127.0.0.1:9996/tts'
 ]
 tts_server_index = 0
 executor = ThreadPoolExecutor(max_workers=len(tts_servers))
 zh_punc = {'。', '？', '！', '\n'}
 en_punc = {'.', '?', '!', '\n'}
 def merge_audio_files(base_audio, increment):
    """将多段语音拼接"""
    base_audio += increment
    return base_audio
 def call_tts_api(server_url, response_text, language, audio):
    """调用ChatTTS API，回答转语音"""
    response = requests.post(
        server_url, 
        data={
            "text": response_text,
            'language': language
        },
        files={'audio': open(audio, 'rb')}
    )
    if response.status_code == 200:
        audio_segment = AudioSegment.from_file(file=BytesIO(response.content), format='wav')
        return audio_segment
    else:
        print(f"Error: {response.json()['error']}")
        return None
 def generate_response_stream(transcription):
    """调用ChatGPT API，回答问题"""
    for index, chatgpt_api in enumerate(chatgpt_apis):
        url = chatgpt_api['url']
        api_key = chatgpt_api['key']
        headers = {
            "Authorization": f"Bearer {api_key}",
            "Content-Type": "application/json"
        }
        data = {
            "model": "gpt-3.5-turbo",
            "messages": [
                {"role": "user", "content": transcription}
            ],
            "temperature": 0.7,
            "stream": True
        }
        response = requests.post(url, headers=headers, json=data, stream=True)
        print(f"ChatGPT API {index} Response Status Code: {response.status_code}")
        if response.status_code == 200:
            return response
    return None
@app.route('/tts', methods=['POST'])
 def tts():
    global tts_server_index
    unique_id = str(uuid.uuid4())
    timestamp = datetime.now().strftime('%Y%m%d%H%M%S')
    os.makedirs('temp', exist_ok=True)
    input_audio_filename = f"input_{timestamp}_{unique_id}.wav"
    input_audio_path = os.path.join('temp', input_audio_filename)
    output_audio_filename = f"output_{timestamp}_{unique_id}.wav"
    output_audio_path = os.path.join('temp', output_audio_filename)
    base_audio = AudioSegment.silent(duration=0)  # 初始化一个空音频段
    collected_chunks = []
    collected_messages = ['']
    futures = []
    audio_queue = Queue()
    language = request.form['language']
    response_stream = generate_response_stream(request.form['text'])
    if response_stream == None:
        return jsonify({"error": "Something wrong with ChatGPT API."}), 502
    speaker_file = request.files['audio']
    speaker_file.save(input_audio_path)
    try:
        for chunk in response_stream.iter_lines():
            if chunk:
                decoded_line = chunk.decode('utf-8')
                if decoded_line.startswith('data: '):
                    content = decoded_line[6:]
                    if content.strip() == '[DONE]':
                        break
                    response_json = json.loads(content)
                    collected_chunks.append(response_json)
                    chunk_message = response_json['choices'][0]['delta']
                    collected_messages[-1] += chunk_message.get('content', '')
                    if len(collected_messages[-1]) > 0 and collected_messages[-1][-1] in (zh_punc if language == 'chinese' else en_punc):
                        partial_text = collected_messages[-1]
                        if partial_text:
                            print(f"{partial_text}", end="")
                            server_url = tts_servers[tts_server_index % len(tts_servers)]
                            tts_server_index += 1
                            future = executor.submit(call_tts_api, server_url, partial_text, language, input_audio_path)
                            futures.append((partial_text, future))
                        collected_messages.append("")
        # 处理所有 future 并按顺序添加到队列中
        for partial_text, future in futures:
            audio_data = future.result()
            if audio_data:
                audio_queue.put((partial_text, audio_data))
        # 拼接音频文件
        while not audio_queue.empty():
            _, audio_segment = audio_queue.get()
            base_audio = merge_audio_files(base_audio, audio_segment)
        # 将最终的音频文件保存到硬盘
        base_audio.export(output_audio_path, format='wav')
        print("\n")
        # 返回生成的回答音频
        return send_file(output_audio_path, as_attachment=True, download_name='response.wav')
    finally:
        if os.path.exists(input_audio_path):
            os.remove(input_audio_path)
        if os.path.exists(output_audio_path):
            os.remove(output_audio_path)
 if __name__ == '__main__':
    app.run()
--- a/api/tts/run_tts.sh
+++ b/api/tts/run_tts.sh
@ -0,0 +1,4 @@
 #!/bin/bash
 FLASK_APP=main.py FLASK_ENV=development flask run \
    -h 0.0.0.0 \
    -p 9992
--- a/api/wenet/main.py
+++ b/api/wenet/main.py
@ -0,0 +1,58 @@
 from flask import Flask, request, jsonify
 import wenet
 import os
 import uuid
 from datetime import datetime
 app = Flask(__name__)
 # 加载wenet模型
 wenet_model_cn = wenet.load_model('chinese', device='cuda')
 wenet_model_en = wenet.load_model('english', device='cuda')
 def transcribe_audio(audio_path, language):
    """Transcribe audio file to text using wenet."""
    if language == 'chinese':
        result = wenet_model_cn.transcribe(audio_path)['text']
    else:
        result = wenet_model_en.transcribe(audio_path)['text']
        result = result.replace("▁", " ")
    print(result)
    return result
@app.route('/transcribe', methods=['POST'])
 def transcribe():
    if 'audio' not in request.files or 'language' not in request.form:
        return jsonify({"error": "Audio file and language must be provided"}), 400
    audio_file = request.files['audio']
    language = request.form['language']
    if language not in ['chinese', 'english']:
        return jsonify({"error": "Unsupported language"}), 400
    # 设置缓存音频文件地址
    unique_id = str(uuid.uuid4())
    timestamp = datetime.now().strftime('%Y%m%d%H%M%S')
    os.makedirs('temp', exist_ok=True)
    input_audio_filename = f"input_{timestamp}_{unique_id}.wav"
    input_audio_path = os.path.join('temp', input_audio_filename)
    audio_file.save(input_audio_path)
    try:
        # 使用wenet，音频转文本
        response_text = transcribe_audio(input_audio_path, language)
        if language == "chinese":
            response_text = response_text.replace("：", "，")
            response_text = response_text.replace("*", "")
        else:
            response_text = response_text.replace(":", ",")
            response_text = response_text.replace("*", "")
        return jsonify({"text": response_text})
    finally:
        # 清理缓存音频文件
        if os.path.exists(input_audio_path):
            os.remove(input_audio_path)
 if __name__ == '__main__':
    app.run()
--- a/api/wenet/run_wenet.sh
+++ b/api/wenet/run_wenet.sh
@ -0,0 +1,5 @@
 export FLASK_APP=main.py
 export FLASK_ENV=development
 flask run \
    -h 0.0.0.0 \
    -p 9991
--- a/api/xtts/main.py
+++ b/api/xtts/main.py
@ -0,0 +1,66 @@
 from flask import Flask, request, jsonify, send_file
 import uuid
 from datetime import datetime
 from TTS.api import TTS
 import os
 app = Flask(__name__)
 device = os.getenv('APP_DEVICE', 'cpu')  # 使用环境变量获取设备
 lang2short = {'english': 'en', 'chinese': 'zh-cn'}
 tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=('cuda' in device)).to(device)
 def generate_wav(response_text, speaker_wav, language, output_file_path):
    tts.tts_to_file(
        text=response_text,
        speaker_wav=speaker_wav,
        language=lang2short[language],
        file_path=output_file_path
    )
@app.route('/tts', methods=['POST'])
 def generate():
    if 'audio' not in request.files or 'language' not in request.form or 'text' not in request.form:
        return jsonify({"error": "Speaker audio file, text and language must be provided"}), 400
    speaker_wav = request.files['audio']
    language = request.form['language']
    text = request.form['text']
    if language not in ['chinese', 'english']:
        return jsonify({"error": "Unsupported language"}), 400
    # 设置缓存音频文件地址
    unique_id = str(uuid.uuid4())
    timestamp = datetime.now().strftime('%Y%m%d%H%M%S')
    os.makedirs('temp', exist_ok=True)
    input_audio_filename = f"speaker_{timestamp}_{unique_id}.wav"
    input_audio_path = os.path.join('temp', input_audio_filename)
    output_audio_filename = f"output_{timestamp}_{unique_id}.wav"
    output_audio_path = os.path.join('temp', output_audio_filename)
    speaker_wav.save(input_audio_path)
    try:
        # 生成音频数据
        generate_wav(text, input_audio_path, language, output_audio_path)
        return send_file(
            output_audio_path,
            mimetype='audio/wav',
            as_attachment=True,
            download_name='generated_audio.wav'
        )
    finally:
        # 清理缓存音频文件
        if os.path.exists(input_audio_path):
            os.remove(input_audio_path)
        if os.path.exists(output_audio_path):
            os.remove(output_audio_path)
 if __name__ == '__main__':
    app.run()
--- a/api/xtts/run_xtts.sh
+++ b/api/xtts/run_xtts.sh
@ -0,0 +1,16 @@
 export FLASK_APP=main.py
 export FLASK_ENV=development
 # Define the ports to run the application on
 ports=(9995 9996)
 devices=('cuda' 'cuda')
 # Loop through each port and start the application
 for i in "${!ports[@]}"; do
    port=${ports[$i]}
    device=${devices[$i]}
    echo "Starting server on port $port with device $device"
    APP_DEVICE=$device FLASK_APP=main.py FLASK_ENV=development flask run --port $port --host '0.0.0.0' &
 done
 wait