Professor I.S.A.A.C. é uma aplicação de Inteligência Artificial interativa que processa perguntas por voz, responde usando GPT-4, captura e processa imagens, além de sintetizar respostas em áudio. A interação é feita via teclado, onde o usuário pode iniciar gravações e obter respostas através de atalhos de teclado.
Para mais projetos e ferramentas com Python, acesse a Asimov Academy.
Veja o código completo do projeto neste vídeo.
- Python 3.11
- Poetry para gerenciamento de dependências
- Microfone e alto-falantes
- Câmera IP ou webcam para capturas de imagens
git clone https://github.com/asimov-academy/professor-isaac.git
cd professor-isaac
Execute o comando abaixo para instalar as dependências listadas no arquivo pyproject.toml
:
poetry install
Crie um arquivo .env
na raiz do projeto e adicione sua chave da API do OpenAI:
OPENAI_API_KEY="SUA-API-KEY-DA-OPENAI-AQUI"
O Professor I.S.A.A.C. é uma IA com funcionalidade de captura de imagem e gravação de voz para a simulação de uma interação com um professor. Utilizando o modelo GPT-4o-mini para a obtenção de respostas.
- Interação por Voz: O sistema transcreve as perguntas feitas e responde utilizando inteligência artificial.
- Respostas em Tempo Real: Utiliza o modelo GPT-4 para gerar respostas didáticas e interativas.
- Síntese de Voz: As respostas são convertidas em fala e reproduzidas em tempo real.
- Captura e Processamento de Imagens: Imagens são capturadas da câmera e descritas em texto.
-
Atalhos de Teclado: A interação é feita através dos seguintes atalhos:
- Pressione
V
para iniciar a gravação de voz. - Pressione
F
para enviar a pergunta e obter a resposta. - Pressione
Q
para encerrar a aplicação.
- Pressione
-
Captura de Imagem: O sistema captura imagens de uma câmera IP ou webcam, que são processadas e descritas como parte da resposta.
-
Respostas Inteligentes: O sistema usa GPT-4 para gerar respostas baseadas no contexto da pergunta e nas imagens capturadas.
Para iniciar o Professor I.S.A.A.C., execute:
poetry run python main.py
- ProfessorISAAC: Classe principal que lida com a captura de imagem, reconhecimento de voz e processamento de perguntas.
- speak(): Função que converte texto em fala utilizando o modelo TTS.
- frame_capture(): Captura frames da câmera para processamento.
- obter_resposta(): Envia a pergunta ao modelo GPT-4 e retorna a resposta.
- transcribe_audio(): Transcreve o áudio capturado usando Whisper.
- hear(): Monitora o microfone para gravação de áudio e obtém perguntas.
- start_listening(): Inicia a escuta do áudio do usuário.
- stop_listening_and_get_response(): Para a escuta e envia a pergunta ao GPT-4.
Este projeto está licenciado sob a Licença Asimov Academy.