image/svg+xml
Re
v.
Hipótese,
Bauru,
v.
8
,
esp. 1,
e022020
, 202
2
.
e
-
ISSN: 2446
-
7154
DOI:
https://doi.org/10.47519/eiaerh.v8.2022.ID414
|
1
PRODUÇÃO MUSICAL POR COMANDOS DE VOZ EM UM APLICATIVO DE
PERCEPÇÃO SONORA
PRODUCCIÓN MUSICAL POR COMANDOS DE VOZ EN UNA APLICACIÓN DE
PERCEPCIÓN DE SONIDO
MUSIC PRODUCTION BY VOICE COMMANDS IN A SOUND PERCEPTION
APPLICATION
Leonardo Porto PASSOS
Universidade Estadual de Campinas
(U
NICAMP
)
e
-
mail:
leoportopassos@gmail.com
José FORNARI
Universidade Estadual de Campinas (UNICAMP)
e
-
mail:
fornari@unicamp.br
Como referenciar este artigo
PASSOS, L. P. FORNARI, J. Produção musical por comandos de voz em um aplicativo de
percepção sonora.
Revista Hipótese
, Bauru, v. 8, esp. 1, e022020, 2022. e
-
ISSN: 2446
-
7154.
DOI:
https://doi.org/10.47519/eiaerh.v8.2022.ID414
Submetido em
:
10/03/2022
Revisões requeridas em
:
05/05/2022
Aprovado em
:
01/07/2022
Publicado em
:
01/12/2022
image/svg+xml
Produção musical por comandos de voz em um aplicativo de
percepção sonora
Rev. Hipótese,
Bauru, v. 8,
esp. 1, e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
2
RESUMO
: Neste artigo, apresentamos o protótipo de um aplicativo
web
acessível a deficientes
visuais para educação em produção musical e treinamento em percepção sonora, com o qual o
usuário pode, por meio de entradas por comandos de voz, mixar a música em execução, ao
adicionar e remover instrumentos musicais e efeitos de
áudio e alterar o
panning
. A mixagem
é de fundamental importância no processo de gravação musical, mas muitos ouvintes e músicos
desconhecem as ferramentas e técnicas utilizadas nessa etapa, não
conseguindo
identificar tais
procedimentos, que conferem sin
gularidade e características estéticas especiais a uma gravação,
o que motivou o desenvolvimento do
app
proposto.
PALAVRAS
-
CHAVE
: Produção musical. Percepção sonora.
Desenvolvimento de aplicativo.
RESUMEN
: En este artículo presentamos el prototipo de un
a aplicación web accesible para
personas con discapacidad visual para la educación en producción musical y la formación en
percepción del sonido, con la cual el usuario puede, a través de comandos de voz, mezclar la
música en ejecución, agregando y quitand
o instrumentos musicales. y efectos de audio y
cambiar la panorámica. La mezcla es de fundamental importancia en el proceso de grabación
musical, pero muchos oyentes y músicos desconocen las herramientas y técnicas que se
emplean en esta etapa, no pudiendo
identificar dichos procedimientos, los cuales le dan
singularidad y características estéticas especiales a una grabación, lo que motivó el desarrollo
de la aplicación propuesta.
PALABRAS CLAVE
:
Producción musical. Percepción del sonido.
Desarrollo de aplicaciones.
ABSTRACT
:
In this article, we present the prototype of a web application accessible to the
visually impaired for music production education and training in sound
perception. Through
voice commands, the user can mix the music being played by adding and removing musical
instruments and audio effects and changing panning. Mixing is of fundamental importance in
the musical recording process, but many listeners and musi
cians are unaware of the tools and
techniques used in this stage, not being able to identify such procedures, which give uniqueness
and special aesthetic characteristics to a recording, which motivated the development of the
proposed app.
KEYWORDS
:
Music production. Sound perception.
Application development.
image/svg+xml
Leonardo Porto PASSOS
e
José FORNARI
Rev. Hipótese,
Bauru, v. 8,
esp. 1,
e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
3
Introdução
É muito comum que um ouvinte, principalmente um não músico, possua uma predileção
especial por determinada composição musical sem que saiba ao certo o porquê dessa
afetividade, con
siderando
haver
algo naquela música que evoca suas emoções, mas foge à sua
compreensão. E quando a mesma música é apreciada em uma
performance
ao vivo, sem a
utilização dos mesmos recursos de estúdio, muitas vezes aquela relação afetiva de antes se
rompe, e a sensação já não é a mesma, ainda que a
performance
tenha sido bastante fidedigna
à gravação musical tão estimada por aquele apreciador. O
que pode ocorrer nesses casos é que
o ouvinte possui algum apreço pela estética imbuída pelo produtor musical àquela gravação
(sem contar a participação do compositor e do intérprete, já que o nosso foco aqui é a produção
musical, mais precisamente a mixag
em),
conferindo
a ela novos contornos (para além daqueles
oferecidos por compositores e intérpretes), que muitas vezes são difíceis de serem reproduzidos
durante a
performance
, por diversas razões, que vão desde as diferenças de tratamento acústico
do ambi
ente de gravação do estúdio em relação ao local da
performance
até os equipamentos
disponíveis para a coleta, registro, processamento e geração sonora.
Nas palavras de David Huron (2015, p. 1), “A música
consegue
evocar uma ampla gama
de estados de sentime
nto, do trivial ao sublime.”,
1
isso
ocorre por conta de quatro tipos de
geradores emocionais: 1) associação: “
[
…
]
certos sons ou padrões sonoros podem ser
associados a experiências emocionais passadas.”;
2
2) empático: “
[
…
]
o ouvinte reconhece
característ
icas acústicas associadas a emoções particulares.”;
3
3) cognitivo: “Pensamentos
conscientes podem levar o ouvinte a uma experiência particular.”;
4
e 4) sinalização: “
[
…
]
um
sinal que muda o comportamento do observador.”
5
(HURON, 2012, p. 479).
Além dos
papéis do compositor e do intérprete em evocar sentimentos ao ouvinte, há
também a participação do produtor musical no processo de mixagem, conforme Richard James
Burgess (2013, p. 73): “A mixagem estende todas as técnicas musicais que a precedem,
fortalec
endo a percepção da música ao reforçar a estrutura, a orquestração e o afeto emocional para
a audiência pretendida.”.
6
A mixagem pode intensificar a evocação de emoções, ou contribuir para
que ela ocorra, por meio do uso adequado de equalizador, filtros,
distorção,
chorus
, dinâmicas,
1
“
Music is capable of evoking a wide range of feeling states from the pedestrian to the sublime
.”
2
“
[
…
]
certain sounds or sound patterns may become
associated with past emotional experiences
.”
3
“
[
…
]
a listener recognizes acoustic features associated with particular emotions
.”
4
“
Conscious thoughts can lead a listener to a particular experience
.”
5
“
[
…
]
a signal is to change the behavior of the observ
er
.”
6
“
Mixing extends all the musical techniques that precede it, strengthening the perception of the song by
reinforcing the structure, orchestration, and emotional affect for the intended audience
.”
image/svg+xml
Produção musical por comandos de voz em um aplicativo de
percepção sonora
Rev. Hipótese,
Bauru, v. 8,
esp. 1, e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
4
compressor, reverberação, eco,
pitch shifting
,
etc. (CASE, 2011), e diz respeito ao seguinte
processo:
[
…
]
refere
-
se à mixagem original de uma faixa quando a instrumentação e os
vocais são equilibrados entre si e quaisquer efeitos ou tratamentos necessários
são adicionados.
[
…
]
Uma mixagem deve otimizar a música, o vocal, as
performance
s, o arranjo e a engenha
ria. Deve soar bem em uma ampla gama
de sistemas de alta e baixa gama e em qualquer volume
7
(BURGESS, 2013,
p. 102, trad
ução
nossa)
.
A produção musical
–
que inclui gravação sonora, arranjo, orquestração, efeitos,
mixagem, masterização
,
etc., como veremos em mais detalhes adiante
–
é fundamental para que
seja possível obter qualidade na captação dos instrumentos e vozes e para que tudo possa ser
ouvido com clareza e definição, de acordo com conceitos estéticos variados, que podem até
mes
mo privilegiar certas “imperfeições” e a baixa fidelidade sonora
8
(
low
-
fidelity
ou
lo
-
fi
). Há
grande preocupação com a clareza das texturas musicais
9
e com a separação das partes, em um
processo
torna
rá
imperceptíveis os procedimentos de gravação, ou ao menos reduzir os métodos
de produção musical (captação e gravação, adição de efeitos, mixagem, masterização) de modo
que a gravação seja percebida como uma representação fiel ou “real” da
performance
musi
cal
(TURINO, 2008).
Porém, como afirma Burgess (2013, p. 2, trad
ução
nossa), os processos e as técnicas da
produção musical, bem como seus resultados, são desconhecidos por muitas pessoas, até
mesmo por músicos: “
[
…
]
creio que a produção musical é uma arte
mal compreendida, mesmo
na
indústria.”
10
[musical]. E é com o propósito de oferecer a experiência de realizar uma
mixagem musical básica que foi desenvolvido o protótipo de um aplicativo
web
11
de
treinamento em percepção musical, e desse modo, útil para a
educação em produção musical,
já que permite ao usuário compreender certos recursos e técnicas utilizados por produtores
musicais em mixagem e concepções criativas em termos estéticos.
7
“
[
…
]
mix refers to the original mix of a track when the instrumentation and vocals are balanced with each other
and any needed effects or treatments are added.
[
…
]
A mix should optimize the song, the vocal, the performances,
the arrangement, and the engineering
. It should sound good on a wide range of high
-
and low
-
end systems, and
at any volume
.”
8
Disponível em
: https://ora.ox.ac.uk/objects/uuid:cc84039c
-
3d30
-
484e
-
84b4
-
8535ba4a54f8.
Acesso em: 10 jan.
2022.
9
“O termo textura se refere à maneira como os materi
ais melódicos, rítmicos e harmônicos são tecidos juntos em
uma composição” (
The term texture refers to the way the melodic, rhythmic, and harmonic materials are woven
together in a composition
) (BENWARD; SAKER, 2009, p. 145, trad
ução
nossa).
10
“
[
…
]
I felt
that the art of music production was poorly understood, even within the industry
”.
11
Disponível em
:
https://edu.gcfglobal.org/pt/informatica
-
basica/o
-
que
-
e
-
um
-
aplicativo
-
web/1/
.
Acesso em: 10
jan. 2022.
image/svg+xml
Leonardo Porto PASSOS
e
José FORNARI
Rev. Hipótese,
Bauru, v. 8,
esp. 1,
e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
5
Para tal, explicaremos a seguir o que é a produção musical, bem como a
definição de
percepção musical e as razões que nos levaram a optar pelo desenvolvimento de um aplicativo
com entradas (
inputs
) por comandos de voz.
Produção musical
A história da produção musical teve início com o surgimento da gravação,
reprodução
e mídia, atribuídas a Thomas Alva Edison com a invenção do seu Fonógrafo, em 1877, um
aparelho para gravação e reprodução de sons a partir de um cilindro, o que se configurou como
um marco conceitual e estético da produção musical por possibilit
ar, de fato, a “solidificação”,
por assim dizer, da intangibilidade do material sonoro que compõe a música, permitindo toda
forma de processamento e análise sonora. Com este novo aparelho e o decorrente
desenvolvimento de novas tecnologias para gravação e
reprodução sonora
–
o que trouxe novas
oportunidades para o registro musical, antes possível somente pela notação musical (com sua
s
limitações, pois a expressividade de uma
performance
não é registrada pela notação), e para a
composição musical
–
, surgiu a
necessidade de técnicas capazes de combinar composição,
arranjo, orquestração, interpretação, improvisações, timbres e
performance
em um todo sônico
imutável (
immutable sonic whole
) (BURGESS, 2014, p. 1), ou um “objeto sonoro”
12
imutável.
Na definição de
Burgess:
A produção musical é a extensão tecnológica da composição e orquestração.
Ela captura a plenitude de uma composição, sua orquestração e as intenções
performativas do(s) compositor(es). Em sua precisão e capacidade inerente de
capturar sutilezas c
ulturais, individuais, ambientais, timbrísticas e
interpretativas junto com entonação, tempo, intenção e significado (exceto
quando se busca o amorfo), é superior à música escrita e às tradições orais. A
produção musical não é apenas representativa, mas ta
mbém uma arte em si
13
(BURGESS, 2013, p. 5, trad
ução
nossa)
.
De acordo com o
Grammy Award Eligible Credit Definitions
(RECORDING
ACADEMY, 2019), o produtor musical é o responsável por decisões criativas, técnicas e
estéticas que atendam aos objetivos do artista e do proprietário dos direitos autorais da gravação
de som na criação de conteúdo musical, muitas vezes sendo c
onsiderado, quando já não é o
12
Termo criado por Pierre Schaeffer para referir
-
se a um trecho de áudio com uma unidade de informação sonora
cuja referência imagética é latente ou inexistente (MELO; PALOMBINI, 2006).
13
“
Music production is the technological extension of composition and o
rchestration. It captures the fullness of a
composition, its orchestration, and the performative intentions of the composer(s). In its precision and inherent
ability to capture cultural, individual, environmental, timbral, and interpretive subtleties along
with those of
intonation, timing, intention, and meaning (except where amorphousness is specified), it is superior to written
music and oral traditions. Music production is not only representational but also an art in itself
.”
image/svg+xml
Produção musical por comandos de voz em um aplicativo de
percepção sonora
Rev. Hipótese,
Bauru, v. 8,
esp. 1, e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
6
caso, outro membro do grupo musical, com a mesma ou até maior importância que os músicos.
O produtor pode executar, dirigir
performance
s, escolher tomadas ou versões finais e
supervisionar a seleção de músicas, músicos, cantor
es, arranjadores, estúdios
,
etc. É também o
responsável por realizar ou supervisionar a mixagem, a masterização
14
e o controle de
qualidade geral de uma gravação musical.
Pode
-
se definir a mixagem como a utilização, de forma criativa e por vezes intuitiva,
de
técnicas e ferramentas para mesclar, moldar e equalizar o som de um ou mais canais de áudio,
com conteúdo de distintas fontes sonoras,
para
alcançar um objetivo estético específico
(ARAÚJO, 2015). A utilização da mixagem de forma criativa, bem como seu
s aspectos
técnicos, pode ser evidenciada de forma mais clara e detalhada:
Mixar música está relacionado com processar apresentações musicais
gravadas. O objetivo desse processamento pode ser fazer com que a gravação
soe natural e realista, como se você estivesse na sala quando os músicos se
apresentaram. E também pode ser usado
para alterar drasticamente o caráter
sônico da gravação, criando uma paisagem sonora muito diferente que talvez
nem seja possível de alcançar na vida real. Para fazer isso, o engenheiro de
mixagem possui uma grande variedade de ferramentas, analógicas e di
gitais.
Essas ferramentas são chamadas de processadores de sinais ou efeitos.
[
…
]
Os engenheiros de mixagem podem, portanto, usar o processamento de sinal
por razões outras que não meramente técnicas. O processamento de sinais
pode ser usado de maneiras es
téticas e criativas para fazer as coisas parecerem
maiores, mais apaixonadas e mais emocionais. Mesmo que o sinal original
possa ser fortemente enviesado ou distorcido no processo, fazendo com que
soe pouco natural ou com uma qualidade de áudio inferior, m
uitas vezes é
considerado desejável.
[
...
]
Ao mixar música, os engenheiros de mixagem às
vezes usam o processamento de sinal para suscitar um impacto emocional
específico no ouvinte. Por exemplo, uma faixa vocal pode ser mixada com
muita reverberação e del
ay com a intenção de induzir uma emoção onírica ou
melancólica
15
(OLSSON, 2015, p. 2, trad
ução
nossa).
14
“A masterização é a etapa
final de otimização do material gravado enquanto ele é transferido para o(s)
formato(s) que será(ão) utilizado(s) no processo de fabricação” (
Mastering is the final stage of optimization of the
recorded material while transferring it to the format(s) that
will be used in the manufacturing process
)
(BURGESS, 2014, p. 48, trad
ução
nossa).
15
“
Mixing music is about processing recorded musical performances. The goal of this processing can be to make
the recording sound natural and realistic, just as if you were
there in the room when the musicians performed. It
can also be used to drastically change the sonic character of the recording, creating a vastly different soundscape
maybe not even possible to achieve in real life. To do this, the mixing engineer has a wi
de variety of tools, both
analog and digital. These tools are called signal processors, or effects.
[
…
]
Mixing engineers may therefore use
signal processing for reasons other than mere technical. Signal processing can be used in aesthetic and creative
ways
as to make things sound bigger, more passionate and more emotional. Even though the original signal may
be heavily skewed or distorted in the process, making it sound unnatural or of a lesser audio quality, it is often
times found desirable.
[
…
]
When mixi
ng music, mixing engineers sometimes use signal processing in a way as to
achieve a specific emotional impact in the listener. For example, a vocal track may be mixed with lots of reverb
and delay with the intention of inducing a dreamy or melancholic emot
ion
.”
image/svg+xml
Leonardo Porto PASSOS
e
José FORNARI
Rev. Hipótese,
Bauru, v. 8,
esp. 1,
e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
7
De acordo com Burgess (2013), a produção musical é antecedida pela fase de pré
-
produção e seguida pela etapa de pós
-
produção:
a)
Pré
-
produção: fase
preparatória de tomada de decisões para a seleção, organização e
refinamento do material musical;
b)
Produção: preparar (escolher e posicionar) microfones, instrumentos, fones de ouvido,
efeitos (
delay
, reverberação
,
etc.), equalizadores e compressores (pré
-
m
ixagem) e realizar
as sessões de gravações, tudo com base em escolhas estéticas iniciadas na etapa anterior;
c)
Pós
-
produção: etapa d
a
realização da mixagem, que consiste em equilibrar e otimizar os
componentes da produção para o máximo impacto musical e clar
eza perceptiva das
partes, utilizar recursos como equalização, compressão,
panning
,
16
compressão,
limitação, expansão,
gating
, reverberação,
delays
e outros efeitos para otimizar os sons,
aumentar seu impacto e garantir que ocupem seu próprio espaço no espectro de áudio.
E por fim, a masterização,
sendo
a preparação de uma mídia ou arquivo digital único
com a junção de todas as demais gravações que c
ompõem uma peça musical (música)
ou um conjunto delas (álbum).
É comum que algumas dessas etapas sejam realizadas por profissionais distintos,
especializados em funções específicas. Mas “Com a onipresença das estações de trabalho de
áudio digital (DAW [
dig
ital audio workstation
]), a maioria dos produtores, desde a virada do
século,
conseguem
gravar e manipular áudio na DAW de sua escolha. Isso confunde ainda mais
a distinção entre engenharia e produção de áudio.”
17
(BURGESS, 2013, p. 29, trad
ução
nossa).
É
na fase de pós
-
produção que se concentram as etapas mais relevantes para o presente
estudo, em especial a mixagem:
Na fase de pós
-
produção, o engenheiro de mixagem combina as gravações por
meio da mixagem e edição para obter uma mixagem final.
Predominant
emente, quanto mais habilidoso for o engenheiro de mixagem,
melhor será a mixagem final em termos de qualidade de produção. A mixagem
de áudio envolve a aplicação de técnicas de processamento de sinal a cada
trilha de áudio gravada, por meio das quais o en
genheiro manipula as
características dinâmicas (equilíbrio e compressão de faixa dinâmica),
espaciais (panorâmica estéreo ou
surround
e reverberação) e espectrais
(equalização) do material de origem. Uma vez que a mixagem final foi criada,
ela é enviada pa
ra um estúdio de masterização, em que um processamento
adicional é aplicado para que a gravação musical possa ser distribuída para
16
“O movimento panorâmico, o posicionamento para a esquerda ou direita dos sons entre os alto
-
falantes”
(
Panning, the left/right placement of sounds between the speakers
) (GIBSON, 2005, p. 22, trad
ução
nossa).
17
“
With the ubiquity of digital
audio workstations (DAWs), most producers, since the turn of the century, have
been capable of recording and manipulating audio in their workstation of choice. This further blurs the distinction
between audio engineering and production
.”
image/svg+xml
Produção musical por comandos de voz em um aplicativo de
percepção sonora
Rev. Hipótese,
Bauru, v. 8,
esp. 1, e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
8
audição em um ambiente doméstico ou de clube
18
(RONAN; REISS;
GUNES, 2018, p. 1, trad
ução
nossa).
Independentemente da função específica desempenhada pelo profissional de produção
musical, a percepção musical aguçada é preponderante para a realização desse tipo de trabalho.
Percepção musical
A mixagem é uma etapa de fundamental importância para o resultado da gravação de uma
peça musical, conforme defende David Gibson (2005, p. 17,
tradução
nossa): “A mixagem pode
ser apenas uma pequena parte de tudo o que é necessário para criar uma ótima gra
vação geral; no
entanto, é um dos aspectos mais poderosos, porque a mixagem pode ser utilizada para esconder
pontos fracos em outras áreas.”.
19
No entanto, o mesmo autor salienta que “
[
…
]
a maioria das
pessoas não diferencia as partes individuais que compõem uma peça musical gravada. Elas escutam
um ‘som’ geral e raramente separam a mixagem da música.”.
20
(GIBSON, 2005, p. 1, trad
ução
nossa).
Para que seja possível realizar uma mixagem sat
isfatória, é necessário, antes,
concentrar
-
se na percepção musical, uma capacidade humana inata de “
[
…
]
perceber
auditivamente, refletir e agir criativamente sobre a música.” (BERNARDES, 2001, p. 75),
desenvolvida ao longo de nossa evolução enquanto espéci
e a partir da percepção sonora, um
mecanismo de defesa e proteção para que nos mantivéssemos sempre atentos aos
acontecimentos no entorno (por isso somos capazes de fechar os olhos, mas não os ouvidos), e
que também pode se tornar mais apurada por meio de
treinamento.
Para melhor compreensão do que se trata a percepção musical, recorremos a uma
definição mais detalhada:
A percepção musical é a percepção sonora no contexto musical, ou seja, a
capacidade de perceber ondas sonoras como parte de uma linguagem
musical.
A percepção musical envolve principalmente a percepção sonora, que é a
capacidade de identificar atributos físicos do som, como volume, timbre e
18
“
In the post
-
pro
duction stage, the mix engineer combines the recordings through mixing and editing to achieve
a final mix. Predominately, the more skilled the mix engineer is, the better the final mix sounds in terms of
production quality. The mixing of audio involves app
lying signal processing techniques to each recorded audio
track whereby the engineer manipulates the dynamics (balance and dynamic range compression), spatial (stereo
or surround panning and reverberation), and spectral (equalisation) characteristics of th
e source material. Once
the final mix has been created, it is sent to a mastering studio where additional processing is applied before it can
be distributed for listening in a home or a club environment
.”
19
“
The mix may only be one small part of everything
that goes into creating a great overall recording; however,
it is one of the most powerful aspects because the mix can be utilized to hide weaknesses in other areas
.”
20
“
[
…
]
most people don’t differentiate between the individual parts that make up a
recorded piece of music. They
hear an overall “sound” and rarely separate the mix from the music
.”
image/svg+xml
Leonardo Porto PASSOS
e
José FORNARI
Rev. Hipótese,
Bauru, v. 8,
esp. 1,
e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
9
afinação. Além da percepção sonora, a percepção musical envolve também
elementos musicais como melodia
(percepção melódica), ritmo (percepção
rítmica) e harmonia (percepção harmônica) (MATUNOBU, 2010, p. 22)
.
A percepção sonora ocorre, por exemplo, quando estamos em meio a uma paisagem
sonora
21
complexa, constituída de diversos sons de origens variadas, somos imersos em uma
grande quantidade de informações sonoras cuja fonte e natureza muitas vezes desconhecemos.
Ainda assim, somos capazes de perceber claramente determinadas nuances desses sons
–
mesmo que não
consigamos
compreendê
-
los em profundidade
–
, como intensidade, altura,
timbre, reverberação
,
etc. Estes são os aspectos perceptuais sonoros. Na música, um dos
elementos fundamentais da percepção sonora diz respeito ao processamento mental,
pela
audição, de aspectos elementares do som, que descrevem características psicoacústicas
22
do
material escutado” (FORNARI, 2010, p. 12).
Quando estamos imersos em uma paisagem sonora conturbada e percebemos
informações sonoras por todo o redor, oriundas
das mais diversas fontes,
Nossos ouvidos estão recebendo, traduzindo e enviando toda essa informação
sonora para o cérebro pelo nervo auditivo, na forma de sinais elétricos. Apesar
dessa informação perceptual estar emaranhada nos dois canais de recepção,
que
são os ouvidos, somos capazes, até certo ponto, de focalizar nossa atenção
voluntariamente em uma única conversa, bem como mover nossa atenção de
uma fonte sonora para outra, de acordo com nosso interesse, e desconsiderar o
restante. Se, nesse ambiente
sonoro tumultuado, alguém chama pelo nosso
nome, especialmente se constatarmos que se trata de uma voz conhecida, a
nossa atenção é imediatamente e involuntariamente deslocada para esta pessoa
(FORNARI, 2010, p. 21).
Segundo a teoria da Gestalt (LERDAHL;
JACKENDOFF, 1996; TENNEY;
POLANSKY, 1980) existem quatro princípios básicos da identificação de objetos sonoros em
música (FORNARI, 2010, p. 26
-
27):
21
Conceito popularizado por R. Murray Schafer (2001, p. 24): “Uma paisagem sonora consiste em eventos
ouvidos
e não em objetos
vistos
”, e pode ser dividida e
m: sons fundamentais, as notas que identificam a escala ou
tonalidade de uma música ou os sons criados pela geografia e pelo clima (água, vento, pássaros, insetos, animais);
sinais, sons destacados e ouvidos conscientemente como recursos de avisos acústico
s (sinos, apitos, buzinas,
sirenes); e marcas sonoras, sons únicos de uma comunidade, que possuem certas qualidades que os tornam
especialmente significativos ou notados pelas pessoas daquele lugar (derretimento de geleiras, vulcões em erupção,
campos de e
nxofre fervente) (SCHAFER, 2001).
22
“Características psicoacústicas ocorrem em intervalos de tempo suficientemente pequenos, anteriores à
formação de um modelo de memorização de informação sonora (assim, não existe distinção entre aspectos
psicoacústicos s
onoros e musicais). Tais aspectos estão associados a um intervalo de tempo conhecido na
psicoacústica como intervalo da persistência auditiva, considerado em torno de 0,1s de duração. Eventos sonoros
distintos, separados por intervalo de tempo menor que o
da persistência auditiva são percebidos como um único
evento sonoro” (FORNARI, 2010, p. 10).
image/svg+xml
Produção musical por comandos de voz em um aplicativo de
percepção sonora
Rev. Hipótese,
Bauru, v. 8,
esp. 1, e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
10
1.
Estruturação: compreender um conjunto de diferentes eventos como uma estrutura
única. Ex.: instrumentos, m
elodia, harmonia, ritmo
,
etc.;
2.
Segregação: notar um evento que se sobressai em relação aos demais. Ex.: a melodia de
um instrumento solo;
3.
Pregnância: identificar primeiro e de forma clara as estruturas mais simples e regulares.
Ex.: padrões rítmicos simple
s (ao contrário do que ocorre na polirritmia);
4.
Constância: perceber a continuidade nas variações entre eventos consecutivos e entendê
-
los como pertencentes a um mesmo contexto. Ex.: um carro que passa com música tocando.
Com essa capacidade aprimorada de p
ercepção sonora, R. Murray Schafer (2001, p. 25)
afirma que: “O que o analista da paisagem sonora precisa fazer, em primeiro lugar, é descobrir os
seus aspectos significativos, aqueles sons
importantes devido a
sua individualidade, quantidade
ou preponderância.”. E essa descoberta deve ser realizada também pelo produtor musical, ao
realizar a mixagem das partes que compõem uma peça musical gravada.
Schafer defende que uma das formas de se realizar o treinamento
em percepção sonora é
o que ele chama metaforicamente de “limpeza
-
de
-
ouvidos” (
ear cleaning
):
Começa
-
se ouvindo sons. O mundo é cheio de sons que podem ser ouvidos
em toda a parte. As espécies mais óbvias de sons são também as menos
ouvidas, essa é a razão da operação limpeza
-
de
-
ouvidos concentrar
-
se nelas.
Alguns alunos limparam tanto seus ouvidos
para ouvir os sons que os rodeiam
que já podem partir para um estágio posterior e passar a nalisa
-
los. Quando o
processo de análise foi acurado, é possível reconstruir sinteticamente, ou ao
menos imitar, um som que se ouve. Esse é o ponto em que a limpeza
-
de
-
ouvidos dá lugar ao treinamento auditivo (SCHAFER, 1991, p. 103
-
10
4)
.
Diante do exposto, nota
-
se a importância da percepção sonora no viés musical, uma vez
que o músico está também imerso em uma paisagem sonora que, no caso, refere
-
se à
performance
mu
sical,
sendo
ainda mais significativa em termos de comunicação entre agentes,
no caso da
performance
em grupo. Assim, foi desenvolvido um aplicativo web no qual o usuário
poderá tanto realizar treinamento em percepção sonora quanto aprender algumas ferrame
ntas
utilizadas por produtores musicais, conforme apresentado na próxima seção.
image/svg+xml
Leonardo Porto PASSOS
e
José FORNARI
Rev. Hipótese,
Bauru, v. 8,
esp. 1,
e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
11
Modelo computacional de percepção musical
A melhor forma de aprender a ouvir é ouvindo,
23
como bem defende Schafer em seu
livro
O ouvido pensante
, de 1991. Diante disso, uma aplicação
web
cujos
inputs
e
feedbacks
se
dão por meio de sons apresenta um potencial elevado para o treinamento da percepção sonora,
da mesma forma que os
audio
game
s,
24
que apresentam algumas vantagens em educação
musical pela
ênfase nos recursos sonoros (músicas, efeitos sonoros e vozes) e diminuição ou
até mesmo ausência de recursos visuais, conforme apontam Rovithis, Mniestris e Floros:
Nos audio
game
s
[AGs] em particular, os jogadores precisam se concentrar em
estímulos auditivos a fim de compreender e realizar as tarefas de jogo. A redução
ou exclusão de informações visuais pode potencializar a aquisição de
habilidades, como memória e concentração. Al
ém disso, os AGs podem
apresentar a todos, mesmo aos não músicos, conceitos e princípios musicais,
servindo como plataformas nas quais os jogadores experimentam e realizam suas
ideias. Assim, o design de AG pode desempenhar um papel inovador na pesquisa
e
na educação, especialmente em currículos relacionados à música e aos estudos
de som
25
(ROVITHIS; MNIESTRIS; FLOROS, 2014, p. 1, trad
ução
nossa)
.
Diante dessas possibilidades, apresentamos um protótipo simples de um aplicativo
web
de treinamento em percepç
ão sonora e produção musical, com o qual o usuário poderá, por
meio de entradas por comandos de voz (
tornando
o
app
acessível a deficientes visuais), mixar
a música em execução, ao:
•
Adicionar e remover instrumentos, nomeados como bumbo, caixa, tom, pratos,
baixo,
sintetizador, arpejo, melodia e efeitos;
•
Ligar e desligar efeitos de áudio, nomeados como
chorus
, compressor,
delay
, distorção,
flanger
, filtro passa
-
alto, filtro passa
-
baixo, reverberação e tremolo;
•
Alterar o
panning
para o centro (mono), para a esquerda ou para a direita.
23
Ou ainda, “escutar escutando”, já que escutar é ouvir com atenção, conscientemente, conforme Houaiss (2009,
verbete “escutar”): 1) estar consciente do que está o
uvindo; 2) ficar atento para ouvir, dar atenção a; 3) esforçar
-
se para ouvir com clareza.
24
Audio
game
s
são jogos eletrônicos cujo conteúdo (narrativa, mecânicas, comunicação) é veiculado,
principalmente ou exclusivamente, por meio do som (
ROVITHIS; MNIESTRIS; FLOROS
,
2014).
25
“
The application of educational theories on computer games, as well as the intera
ctivity that computer games,
unlike other forms of entertainment, such as books, music and movies, can provide, have made them an
increasingly used medium for education. Particularly in AGs, players need to focus on aural stimuli, in order to
understand an
d accomplish the game
-
play tasks. The reduction or exclusion of visual information can enhance
the acquisition of skills, such as memory and concentration. Furthermore, AGs can introduce everyone, even non
-
musicians, to musical concepts and principles, by
serving as platforms, on which players experiment and realize
their ideas. Thus, AG
-
design can play a groundbreaking role in research and education especially on curricula
related to music and sound studies
.”
image/svg+xml
Produção musical por comandos de voz em um aplicativo de
percepção sonora
Rev. Hipótese,
Bauru, v. 8,
esp. 1, e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
12
O protótipo foi desenvolvido na
engine
(
software
otimizado para a criação de
game
s)
Unity.
26
Sua escolha se deu por conta da possibilidade de integração com a
middleware
27
Fmod,
28
que
permitiu
ativar ou desativar os instrumentos musicais e os efeitos de som
conforme as
entradas do usuário, bem como alterar o
panning
da música.
Com o intuito de manter o usuário do protótipo do app focado nos sons, sem possíveis
dispersões por conta de mu
itos recursos visuais, optou
-
se pelo uso de entradas por comandos
de voz, o que foi possibilitado pelo
plugin
WebGL Speech,
29
escrito na linguagem de
programação C# (a mesma utilizada no Unity), que permite o reconhecimento de fala pelos
navegadores de int
ernet (
browser
) e que converte a fala do usuário em texto (
speech
-
to
-
text
),
mais especificamente em uma variável do tipo string (que armazena palavras), que pode ser
comparada ou manipulada para que seja possível transformar os comandos de fala do usuário
em ações
no
aplicativo. Assim, o usuário pode, por exemplo, pronunciar o nome de um
instrumento musical ou de um efeito sonoro, conforme a
Figura 1
, para desligá
-
lo, caso esteja
ligado, ou ligá
-
lo, caso esteja desligado, o que foi possível com a criação de uma variável binária
do tipo bool (que armazena apenas dois valores possíveis (
true
ou
false
, ou seja, verdadeiro ou
falso) para saber se o instru
mento em questão está ligado ou desligado, e assim realizar a ação
comandada pelo usuário. Quando um instrumento ou efeito de áudio está ligado, seu nome
aparece em verde na tela, e quando está desligado, o nome fica vermelho.
26
Website
oficial do Unity: https://unity.com/p
t.
27
Um
middleware
é um
software
de computador que fornece serviços para
softwares
aplicativos além daqueles
disponíveis pelo sistema operacional.
28
Website
oficial do Fmod: https://www.fmod.com/
.
29
Disponível em: https://assetstore.unity.com/packages/tool
s/audio/webgl
-
speech
-
105831.
image/svg+xml
Leonardo Porto PASSOS
e
José FORNARI
Rev. Hipótese,
Bauru, v. 8,
esp. 1,
e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
13
Figura 1
–
Interface de usu
ário do protótipo, com os nomes dos instrumentos à esquerda, efeitos
de áudio à direita e o indicador da reprodução da música (ícone de alto
-
falante) e a posição do
panning
ao centro
.
Fonte: Elaborado pelos autores
A mesma premissa é utilizada para o
usuário iniciar ou parar a reprodução da trilha
musical, o que é indicado por um ícone de alto
-
falante no centro da tela, que fica vermelho
quando a música não está em execução (
Figura 1
) e se torna verde quando a música está em
execução (
Figura 2
). Para r
eproduzir a música, o usuário deve dizer “tocar música”, e para
interrompê
-
la, deve pronunciar “parar música”.
Figura 2
–
O ícone de alto
-
falante verde ao centro indica que a música está em execução, bem
como a cor dos nomes dos instrumentos e efeitos de
áudio indica se eles estão ativos (verde) ou
inativos (vermelho)
.
Fonte: Elaborado pelos autores.
Para alterar o
panning
, o usuário pode dizer “centro”, “esquerda” ou “direita”, para que a
música seja executada, respectivamente, nos dois
alto
-
falantes, em mono (
Figura 1
), somente no
image/svg+xml
Produção musical por comandos de voz em um aplicativo de
percepção sonora
Rev. Hipótese,
Bauru, v. 8,
esp. 1, e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
14
alto
-
falante da esquerda (
Figura 2
) ou somente no da direita, e uma letra (C, E ou D) aparecerá
na parte inferior do centro da tela, abaixo da palavra “Panning”.
Por
default
, o aplicativo foi
programado para reconhecer palavras pronunciadas no
idioma português, mais especificamente o português brasileiro (PT
-
BR). Porém, por alguma
razão desconhecida, o código utilizado não está funcionando como o esperado, e quando o
usuário acessa o aplicativo
por um navegador configurado em outro idioma que não o PT
-
BR,
o protótipo não funciona, já que o aplicativo reconhece apenas palavras pronunciadas no idioma
PT
-
BR. Desta forma, o usuário precisa alterar manualmente para PT
-
BR a configuração de
idioma do n
avegador a fim de que o modelo funcione corretamente.
Além disso, alguns problemas ocorreram nos testes realizados com o reconhecimento
de fala, que interpretava de maneira errônea a pronúncia das palavras em inglês ao transcrevê
-
las para o português. Dian
te disso, para que certas variáveis do tipo string fossem comparadas
e o resultado pretendido fosse possível, foi necessário fazer adaptações ou o aportuguesamento
de palavras do idioma inglês, como “
chorus
”, aportuguesado para “córus” e também adaptado
pa
ra “khorus”, que são as formas que o reconhecimento de fala do plugin WebGL Speech
costuma transcrever a pronúncia de “
chorus
”. O reconhecimento de fala dificilmente
identificava a pronúncia da palavra “
flanger
”, e ao invés disso, compreendia a palavra “
ra
nger
”,
e assim foram incluídas essas duas opções para ligar ou desligar este efeito quando o usuário
pron
ú
ncia o seu nome.
Quando o usuário pron
ú
ncia alguma das palavras
-
chave,
sendo os
comandos para ativar
ou desativar instrumentos ou efeitos, os respecti
vos parâmetros criados no Fmod são alterados,
o que faz com que os efeitos ou instrumentos sejam ativados ou desativados. Ou seja, os
parâmetros foram criados dentro do Fmod, mas são manipulados pelo Unity
conforme
as
entradas por comandos de voz captadas
pelo algoritmo de reconhecimento de fala do
plugin
WebGL Speech, que converte as palavras pronunciadas em texto (
speech
-
to
-
text
), e assim essas
palavras são comparadas a variáveis do tipo string, e se a comparação for efetivada, ocorre uma
determinada ação
previamente programada. Foi esta sinergia entre Unity, Fmod e WebGL
Speech que
possibilitou
o desenvolvimento do protótipo do aplicativo
web
.
O protótipo deste aplicativo está disponível para testes no itch.io
30
(um site para
hospedagem e distribuição, pa
ga ou gratuita, de
game
s independentes), e pode ser acessado pelo
link https://leopassos.itch.io/musicmixer.
30
“
itch.io is an open marketplace for independent digital creators with a focus on independent video games. It’s
a platform that enables anyone to sell the content they've created. As a seller you’re in charge of how it’s done:
you set the price, you run sales, and you design your pages. It’s never necessary to get votes, likes, or follows to
image/svg+xml
Leonardo Porto PASSOS
e
José FORNARI
Rev. Hipótese,
Bauru, v. 8,
esp. 1,
e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
15
Considerações finais
Em algumas sessões de apresentação do Music Mixer, bem como em alguns
playtests
,
31
as pessoas manifestaram entusiasmo e divertimento diante do aplicativo. Algumas melhorias
precisam ser realizadas para que a proposta de oferecer educação em produção musical e
treinamento em percepção sonora seja mais efetiva e se aproxime ainda mais da
prática real de
mixagem e de produção musical, ainda que dentro de certos limites, já que nem todas as técnicas
e ferramentas de mixagem estão disponíveis no aplicativo. A utilização das entradas por
reconhecimento de fala traz alguns entraves, como o
dela
y
entre a entrada e a ação e o
feedback
pelo aplicativo; os problemas por conta do idioma programado no reconhecimento de fala e o
configurado no navegador; a certa constância na imprecisão do sistema de reconhecimento de
fala, que muitas vezes não consegu
e captar corretamente a pronúncia do usuário, principalmente
quando ele não está utilizando fones de ouvido, e o som emitido pelas caixas de som por vezes
acabam atrapalhando reconhecimento de fala do aplicativo; e as limitações das entradas por
reconhecim
ento de fala,
sendo
menos precisas e dinâmicas que outros tipos de entradas, como
as realizadas por
mouse
ou tela sensível ao toque, que permitem maior variedade de comandos
e ações pelo usuário.
Como possibilidades futuras, pretende
-
se permitir ao usuário
: incluir
samples
de áudio
capturados em tempo real; alterar o andamento da música; realizar entradas por toque de tela,
em uma versão
mobile
, para aumentar as possibilidades de uso, dentre as quais se incluem a
possibilidade de adicionar efeitos de áudio
a instrumentos específicos, e não à música como um
todo, como o caso atual do protótipo; e permitir o controle de volume e
panning
de cada
instrumento. Com essas implementações, o usuário poderá realizar algo muito próximo, senão
idêntico, ao que é a mixag
em real das partes individuais que compõem uma peça musical
gravada. Porém, toma
-
se como desafio realizar tais implementações sem abandonar a
possibilidade de uso dos comandos de voz, para que assim o aplicativo permaneça acessível a
deficientes visuais, a
lém das possibilidades de uso da síntese de fala, com o sistema
text
-
to
-
speech
, também incluso no
plugin
WebGL Speech.
Como desdobramentos futuros de trabalhos derivados deste, com vias ao
desenvolvimento de um aplicativo mais sofisticado e com possibilida
des mais elaboradas de uso,
pretendemos recorrer à utilização da metodologia da pesquisa
-
ação (TRIPP, 2005), que consiste
get your content approved, and you can make changes to how you distribute your work as frequently as you like
.”
Disponível em: https://itc
h.io/.
31
Alguns dos
playtests
foram gravados e estão disponíveis em: https://youtu.be/HrxLHzuhg3w
.
image/svg+xml
Produção musical por comandos de voz em um aplicativo de
percepção sonora
Rev. Hipótese,
Bauru, v. 8,
esp. 1, e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
16
em: 1) desenvolvimento, 2) testes, 3) aprimoramentos, 4) coleta de resultados e 5) reinício do
processo a partir da etapa 1. Para as e
tapas 2 e 4, cogita
-
se a coleta de dados por meio de
playtests
seguidos de preenchimento de relatório
on
-
line
por parte dos usuários, com a devida autorização
prévia do Comitê de Ética em Pesquisa (CEP) da Universidade Estadual de Campinas (Unicamp).
REFERÊNCIAS
ARAÚJO, D. V. G.
Uma breve história da mixagem
: Origem, técnicas, percepção e futuros
avanços. Camp
inas, 2015. Dissertação (Mestrado em Música)
–
Instituto de Artes, Universidade
Estadual de Campinas, São Paulo, 2015. Disponível em:
https://revistas.nics.unicamp.br/revistas/ojs/index.php/nr/article/view/190.
Acesso em: 06 maio
2021.
BENWARD, B.; SAKER,
M.
Music in theory and practice
: v. 1.
8. ed. New York:
McGraw
-
Hill, 2009.
BERNARDES, V. A percepção musical sob a ótica da linguagem.
Revista da Abem
, v. 9, n. 6, p.
73
-
82, set. 2001. Disponível em:
www.abemeducacaomusical.com.br/revistas/revistaabem/index.php/revistaabem/article/view/444.
Acesso em: 05 nov. 2021.
BURGESS, R. J.
The art of music production
: The theory and practice. 4. ed. New York:
Ox
ford University Press, 2013.
BURGESS, R. J
.
The history of music production
. New York: Oxford University Press,
2014.
CASE, A. U.
Mix Smart
: Pro audio tips for your multitrack mix.
Oxford: Focal Press, 2011.
FORNARI, J. Percepção, cognição e afeto musical.
In
: KELLER, D. (org.).
Criação musical
e tecnologias
: Teoria e prática interdisciplinar. Goiânia: Anppom
, 2010. Disponível em:
www.anppom.com.br/ebooks/index.php/ pmb/catalog/book/2.
Acesso em: 21 jun. 2021.
GIBSON, D.
The art of mixing
: A visual guide to recording, engineering, and production. 2.
ed. Boston: Thomson Course Technology, 2005.
HOUAISS, A [In
stituto].
Houaiss Eletrônico
.
Versão 3.0. Rio de Janeiro: Objetiva, 2009.
HURON, D. Affect induction through musical sounds: an ethological perspective.
Phil.
Trans. R. Soc. B
, v. 370, n. 1664, mar. 2015. Disponível em:
https://royalsocietypublishing.org/doi/full/10.1098/rstb.2014.0098.
Acesso em: 10 fev. 2021.
HURON, D. Understanding Music
-
related emotion: Leslons from Ethology.
In
: PROC.
INTERN. CONF. ON MUSIC PERCEPTION AND
COGNITION, 12.; TRIENNIAL CONF.
OF THE EUROPEAN SOC. FOR THE COGNITIVE SCIENCES OF MUSIC, 8., 2012,
Thessaloniki.
Anais
[…]. Thessaloniki, Greece, 2012.
image/svg+xml
Leonardo Porto PASSOS
e
José FORNARI
Rev. Hipótese,
Bauru, v. 8,
esp. 1,
e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
17
LERDAHL, F.; JACKENDOFF, R. S.
A generative theory of tonal music
.
3. ed. London:
MIT Press,
1996.
MATUNOBU, Y.
Desenvolvimento de software educativo para treinamento em
percepção musical
. 2010. Monografia (Trabalho de Conclusão de Curso em Ciência da
Computação)
–
Fundação de Ensino Eurípides Soares da Rocha, Centro Universitário
Eurípides de Ma
rília, São Paulo, 2010.
MELO, F.; PALOMBINI, C. O objeto sonoro de Pierre Schaeffer: Duas abordagens.
In
: XVI
ANPPOM, 16., 2006, Brasília.
Anais
[…]. Brasília, 2006. Disponível em:
https://antigo.anppom.
com.br/anais/anaiscongresso_anppom_2006/CDROM/COM/07_Com_TeoComp/sessao04/07
COM_TeoComp_0404
-
173.pdf.
Acesso em: 24 maio 2021.
OLSSON, E.
Aesthetic signal processing in music production
: Is the i
ntended emotional
response achieved? Lulea. 2015. Monografia (Trabalho de Conclusão de Curso em
Engenharia de Áudio)
–
Department of Arts, Communication and Education, Lulea University
of Technology, 2015.
Disponível em: https://www.diva
-
portal.org/smash/r
ecord.jsf?pid=diva2%3A1018575&dswid=
-
3321.
Acesso em: 23 fev. 2021.
RECORDING ACADEMY.
Producers & Engineers Wing, Technical Guidelines
. Producer
Grammy Award Eligibility Crediting Definitions, March 01, 2019. Disponível em:
www.grammy. com/sites/com/files/producer_definitions_final_03_01_2019.pdf. Acesso em: 17
jun. 2021.
RONAN, D.; REISS, J. D.; GUNES, H. An empirical approach to the r
elationship between
emotion and music production quality.
ArXiv
, mar. 2018.
ROVITHIS, E.; MNIESTRIS, A.; FLOROS, A. Educational audio
game
design: sonification
of the curriculum through a role
-
playing scenario in the audio
game
‘Kronos’.
In
: AM 2014,
9.,
2014, New York.
Anais
[…]. New York, NY, USA, 2014.
SCHAFER, R. M.
A afinação do mundo
.
São Paulo: Ed. Unesp, 2001.
SCHAFER, R. M.
O ouvido pensante
. São Paulo: Fundação Editora da Unesp, 1991.
TENNEY, J.; POLANSKY, L. Temporal Gestalt perception in music.
Journal of Music
Theory
, Autumn, v. 24, n. 2, p. 205
-
241, 1980.
Disponível em:
https://www.jstor.org/stable/843503. Acesso em: 19 fev. 2021.
TRIPP, D.
Pesquisa
-
ação: Uma introdução metodológic
a.
Educação e Pesquisa
, São Paulo,
v. 31, n. 3, p. 443
-
466, set./dez. 2005. Disponível em:
http://educa.fcc.org.br/pdf/ep/v31n03/v31n03a09.pdf. Acesso em: 21 set. 2021.
TURINO, T.
Music as social life
: The politics of participation. Chicago: The
University of
Chicago Press, 2008.
image/svg+xml
Produção musical por comandos de voz em um aplicativo de
percepção sonora
Rev. Hipótese,
Bauru, v. 8,
esp. 1, e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
18
SOBRE OS AUTORES
Leonardo Porto PASSOS
Universidade Estadual de Campinas (UNICAMP)
, Campinas
–
SP
–
Brasil
. Mestrando do
Programa de Pós
-
Graduação em Música (PPGM) do Instituto de Artes (IA).
José FORNARI
Universidade Estadual de Campinas (UNICAMP), Campinas
–
SP
–
Brasil
. Pesquisador de
carreira Pq do CPG/DM/IA.
Doutorado em Engenharia Elétrica (UNICAMP).
Processamento e edição: Editora Ibero
-
Americana de Educação.
Correção, formatação, normalização e tradução.
image/svg+xml
Re
v.
Hipótese,
Bauru,
v.
8
,
esp. 1,
e022020
, 202
2
.
e
-
ISSN: 2446
-
7154
DOI:
https://doi.org/10.47519/eiaerh.v8.2022.ID414
|
1
MUSIC PRODUCTION BY VOICE COMMANDS IN A SOUND PERCEPTION
APPLICATION
PRODUÇÃO MUSICAL POR COMANDOS DE VOZ EM UM APLICATIVO DE
PERCEPÇÃO SONORA
PRODUCCIÓN MUSICAL POR COMANDOS DE VOZ EN UNA APLICACIÓN DE
PERCEPCIÓN DE SONIDO
Leonardo Porto PASSOS
State University of Campinas
(U
NICAMP
)
e
-
mail:
leoportopassos@gmail.com
José FORNARI
State University of Campinas
(UNICAMP)
e
-
mail:
fornari@unicamp.br
How to refer to t
his article
PASSOS, L. P. FORNARI, J.
Music production by voice commands in a sound perception
application
.
Revista Hipótese
, Bauru, v. 8, esp. 1, e022020, 2022. e
-
ISSN: 2446
-
7154. DOI:
https://doi.org/10.47519/eiaerh.v8.2022.ID414
Submitted
:
10/03/2022
Revisions
required
:
05/05/2022
Approved
:
01/07/2022
Published
:
01/12/2022
image/svg+xml
Music production by voice commands in a sound perception application
Rev. Hipótese,
Bauru, v. 8,
esp. 1, e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
2
ABSTRACT
:
In this article, we present the prototype of a web application accessible to the
visually impaired for music production education and training in sound perception. Through
voice commands, the user can mix the music being played by adding and removing musical
instruments and audio effects and changing panning. Mixing is of fundamental importance in
the musical recording process, but many listeners and musicians are unaware of
the tools and
techniques used in this stage, not being able to identify such procedures, which give uniqueness
and special aesthetic characteristics to a recording, which motivated the development of the
proposed app.
KEYWORDS
: Music production. Sound pe
rception.
Application development.
RESUMO
: Neste artigo, apresentamos o protótipo de um aplicativo web acessível a deficientes
visuais para educação em produção musical e treinamento em percepção sonora, com o qual
o usuário pode, por meio de entradas por comandos de voz, mixar a música em execuç
ão, ao
adicionar e remover instrumentos musicais e efeitos de áudio e alterar o panning. A mixagem
é de fundamental importância no processo de gravação musical, mas muitos ouvintes e músicos
desconhecem as ferramentas e técnicas utilizadas nessa etapa, não
conseguindo
identificar tais
procedimentos, que conferem singularidade e características estéticas especiais a uma
gravação, o que motivou o desenvolvimento do app proposto.
PALAVRAS
-
CHAVE
: Produção musical. Percepção sonora.
Desenvolvimento de aplicativ
o.
RESUMEN
: En este artículo presentamos el prototipo de una aplicación web accesible para
personas con discapacidad visual para la educación en producción musical y la formación en
percepción del sonido, con la cual el usuario puede, a través de
comandos de voz, mezclar la
música en ejecución, agregando y quitando instrumentos musicales. y efectos de audio y
cambiar la panorámica. La mezcla es de fundamental importancia en el proceso de grabación
musical, pero muchos oyentes y músicos desconocen l
as herramientas y técnicas que se
emplean en esta etapa, no pudiendo identificar dichos procedimientos, los cuales le dan
singularidad y características estéticas especiales a una grabación, lo que motivó el desarrollo
de la aplicación propuesta.
PALABRAS
CLAVE
:
Producción musical. Percepción del sonido.
Desarrollo de aplicaciones.
image/svg+xml
Leonardo Porto PASSOS
e
José FORNARI
Rev. Hipótese,
Bauru, v. 8,
esp. 1,
e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
3
In
troduction
It is very common for a listener, especially a non
-
musician, to have a special predilection
for a certain musical composition without knowing exactly why
this affection, considering there
is something in that music that evokes his emotions but is beyond his comprehension. And
when the same music is appreciated in a live performance, without the use of the same studio
resources, that affective relationship i
s often broken, and the feeling is not the same, even
though the performance was very faithful to the musical recording cherished by that person.
What may occur in these cases is that the listener has some appreciation for the aesthetics
imbued by the musi
c producer to that recording (not counting the participation of the composer
and the performer, since our focus here is the musical production, more precisely, the mixing),
giving it new contours (beyond those offered by composers and performers), that are
often
difficult to be reproduced during the performance, for several reasons, ranging from differences
in the acoustic treatment of the recording studio environment about the performance venue to
the equipment available for sound collection, recording, pr
ocessing, and generation.
In the words of David Huron (2015, p. 1
, our translation
),
“
Music can evoke a wide
range of feeling states, from the trivial to the sublime."
,
1
this occurs because of four types of
emotional generators: 1) association:
“
[...] cer
tain sounds or sound patterns can be associated
with past emotional experiences
.
”;
2
2)
empathic: "[...] the listener recognizes acoustic features
associated with particular emotions.
”;
3
3)
cognitive:
“
Conscious thoughts may lead the listener
to a
particular experience
.”;
4
and
4)
signaling:
“
[...] a signal that changes the observer's
behavior
.”
5
(HURON, 2012, p. 479
, our translation
).
In addition to the roles of the composer and performer in evoking feelings in the listener,
there is also the musi
c producer's participation in the mixing process, as Richard James Burgess
(2013, p. 73) states:
“
Mixing extends all the musical techniques that precede it, strengthening the
perception of the music by reinforcing structure, orchestration, and emotional af
fect for the intended
audience
.”.
6
Mixing can intensify the evocation of emotion, or contribute to it, through the proper
use of equalizer, filters, distortion, chorus, dynamics, compressor, reverb, echo, pitch shifting, etc.
(CASE, 2011), and concerns th
e following process:
1
“
Music is capable of evoking a wide range of feeling states from the pedestrian to the sublime
.”
2
“
[
…
]
certain sounds or sound patterns may become associated with past emotional experiences
.”
3
“
[
…
]
a listener recognizes acoustic features associated with particular emotions
.”
4
“
Conscious thoughts can lead a listener to a particular experience
.”
5
“
[
…
]
a signal is to change the behavior of the observer
.”
6
“
Mixing extends all the musical techniques th
at precede it, strengthening the perception of the song by
reinforcing the structure, orchestration, and emotional affect for the intended audience
.”
image/svg+xml
Music production by voice commands in a sound perception application
Rev. Hipótese,
Bauru, v. 8,
esp. 1, e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
4
[...] refers to the original mix of a track when the instrumentation and vocals
are balanced against each other, and any necessary effects or treatments are
added. [...] A mix should optimize the music, vocals,
performances,
arrangement, and engineering. It should sound good on a wide range of high
-
end and low
-
end systems and at any volume (BURGESS, 2013, p. 102, our
translation
)
.
Music production
-
which includes a sound recording, arranging, orchestration, eff
ects,
mixing, mastering, etc., as we will see in more detail below
-
is fundamental for it to be possible
to obtain quality in the capture of instruments and voices and for everything to be heard with
clarity and definition, according to various aesthetic
concepts, which may even favor certain
“
imperfections
”
and low
-
fidelity
7
(
low
-
fidelity
ou
lo
-
fi
).
(lo
-
fi) sound.
There is great concern
with the clarity of musical textures
8
and the separation of the parts in a process that will make
the recording procedures imperceptible, or at least reduce the methods of music production
(capturing and recording, adding effects, mixing, mastering) so that the recording is perceived
as a fait
hful or
“
real
”
representation of the musical performance (TURINO, 2008)
.
However, as Burgess (2013, p. 2, our translation) states, the processes and techniques
of music production, as well as its outcomes, are unknown to many people, even musicians:
“
[...]
I think music production is a poorly understood art, even in the industry.
”
9
[musical].
And
it is to offer the experience of performing a basic musical mix that the prototype of a web
10
application for training in music perception was
developed, and thus useful for music
production education since it allows the user to understand certain resources and techniques
used by music producers in mixing and creative conceptions in aesthetic terms.
To this end, we will explain below what music p
roduction is, the definition of music
perception, and the reasons that led us to choose the development of an application with inputs
by voice commands.
7
Available at
:
https://ora.ox.ac.uk/objects/uuid:cc84039c
-
3d30
-
484e
-
84b4
-
8535ba4a54f8
.
Access: 10 Jan. 2022.
8
“
The term texture refers to the way melodic, rhythmic, and harmonic materials are woven together in a
composition
” (
The term texture refers to the way the melod
ic, rhythmic, and harmonic materials are woven
together in a composition
) (BENWARD; SAKER, 2009, p. 145,
our translation
).
9
“
[
…
]
I felt that the art of music production was poorly understood, even within the industry
”.
10
Available at
: https://edu.gcfgloba
l.org/pt/informatica
-
basica/o
-
que
-
e
-
um
-
aplicativo
-
web/1/.
image/svg+xml
Leonardo Porto PASSOS
e
José FORNARI
Rev. Hipótese,
Bauru, v. 8,
esp. 1,
e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
5
Music Production
The history of music production began with the emergence of recording, reproduction,
and media, attributed to Thomas Alva Edison with the invention of his Phonograph in 1877, a
device for recording and reproducing sounds from a cylinder, which was configur
ed as a
conceptual and aesthetic milestone of music production by enabling, in fact, the
“
solidification
”
, so to speak, of the intangibility of the sound material that makes up music,
allowing all forms of sound processing and analysis. This new apparatus
and the consequent
development of new technologies for sound recording and reproduction
-
brought new
opportunities for musical registration, previously possible only by the musical notation (with
its limitations, as the expressiveness of performance is no
t registered by notation), and for
musical composition
-
the need arose for techniques capable of combining composition,
arrangement, orchestration, interpretation, improvisations, timbres, and performance into an
immutable sonic whole (BURGESS, 2014, p. 1
), or an immutable
“
sound object
”
11
.
In Burgess'
definition:
Music production is the technological extension of composition and
orchestration. It captures the fullness of composition, its orchestration, and the
performative intentions of the
composer(s). In its precision and inherent
ability to capture cultural, individual, ambient, timbral, and interpretive
subtleties along with intonation, tempo, intention, and meaning (except when
seeking the amorphous), it is superior to written music and
oral traditions.
Music
-
making is representational and an art in itself (BURGESS, 2013, p. 5,
our translation
)
.
According to the Grammy Award Eligible Credit Definitions (RECORDING
ACADEMY, 2019), the music producer is the person responsible for creative,
technical, and
aesthetic decisions that meet the goals of the artist and the copyright owner of the sound
recording in the creation of musical content, often being considered, when this is no longer the
case, another member of the musical group, with the s
ame or even greater importance as the
musicians. The producer may execute, direct performances, choose final takes or versions and
oversee the selection of music, musicians, singers, arrangers, studios, etc. They are also
responsible for performing or supe
rvising the mixing, mastering
12
and overall quality control
of a musical recording.
11
A term created by Pierre Schaeffer to refer to an audio excerpt with a unit of sound information whose imagery
reference is latent or non
-
existent (MELO; PALOMBINI, 2006).
12
“
Mastering is the
final stage of optimizing the recorded material as it is transferred to the format(s) that will be
used in the manufacturing process
” (
Mastering is the final stage of optimization of the recorded material while
transferring it to the format(s) that will be
used in the manufacturing process
) (BURGESS, 2014, p. 48,
our
translation
).
image/svg+xml
Music production by voice commands in a sound perception application
Rev. Hipótese,
Bauru, v. 8,
esp. 1, e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
6
Mixing can be defined as using, in a creative and sometimes intuitive way, techniques
and tools to mix, shape and equalize the sound of one or more audio channels with cont
ent from
different sound sources to achieve a specific aesthetic goal (ARAÚJO, 2015). The use of mixing
creatively, as well as its technical aspects, can be evidenced in a clearer and more detailed way:
Mixing music is related to processing
recorded musical performances. The
goal of this process can be to make the recording sound natural and realistic
as if you were in the room when the musicians performed. It can also be used
to dramatically alter the sonic character of the recording, creati
ng a very
different soundscape that may not even be possible to achieve in real life. To
do this, the mixing engineer has a wide variety of analog and digital tools.
These tools are called signal or effects processors. [...] Mixing engineers can
therefore
use signal processing for other than purely technical reasons. Signal
processing can be used in aesthetic and creative ways to make things sound
bigger, more passionate, and more emotional. Even though the original signal
can be heavily skewed or distorted
in the process, making it sound unnatural
or with inferior audio quality, it is often considered desirable. [...] When
mixing music, mixing engineers sometimes use signal processing to elicit a
specific emotional impact on the listener. For example, a voc
al track may be
mixed with much reverb and delay to induce a dreamlike or melancholic
emotion (OLSSON, 2015, p. 2, our translation
).
According to Burgess (2013), music production is preceded by the pre
-
production stage
and followed by the post
-
production
stage
:
a)
P
re
-
production: preparatory decision
-
making phase for selecting, organizing, and
refining musical material;
b)
Production: prepare (choose and position) microphones, instruments, headphones, effects
(delay, reverb, etc.), equalizers, and
compressors (pre
-
mixing) and perform the recording
sessions, all based on aesthetic choices initiated in the previous stage
;
c)
Post
-
production: stage of the mix, which consists of balancing and optimizing the
components of the production for maximum musical
impact and perceptual clarity of
the parts, using resources such as equalization, compression, panning
13
, compression,
limiting, expansion, gating, reverberation, delays and other effects to optimize the
sounds, increase their impact and ensure that they o
ccupy their own space in the audio
spectrum. And finally, mastering is the preparation of a single media or digital file with
the union of all other recordings that make up a musical piece (music) or a set of them
(album).
13
“
Panning left or right positioning of sounds between speakers
” (
Panning, the left/right placement of sounds
between the speakers
) (GIBSON, 2005, p. 22,
our translation
).
image/svg+xml
Leonardo Porto PASSOS
e
José FORNARI
Rev. Hipótese,
Bauru, v. 8,
esp. 1,
e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
7
Some of these steps are commonly
performed by different professionals specialized in
specific functions. But "With the ubiquity of digital audio workstations (DAWs), most
producers, since the turn of the century, have been able to record and manipulate audio on the
DAW of their choice. Th
is further blurs the distinction between audio engineering and
production
.”
14
(BURGESS, 2013, p. 29,
our translation
).
It is in the post
-
production phase that the most appropriate steps for this study are
concentrated, especially mixing
:
In the
post
-
production stage, the mixing engineer combines the recordings
through mixing and editing to obtain a final mix. Predominantly, the more
skilled the mixing engineer, the better the final mix will be in terms of
production quality. Audio mixing involves
the application of signal
processing techniques to each recorded audio track, whereby the engineer
manipulates the dynamic (dynamic range balancing and compression), spatial
(stereo or surround panning and reverb), and spectral (equalization)
characterist
ics of the source material. Once the final mix has been created, it
is sent to a mastering studio, where additional processing is applied so that the
musical recording can be distributed for listening in a home or club setting
(RONAN; REISS; GUNES, 2018, p
. 1, our translation
).
Regardless of the specific role performed by the music production professional, keen
musical perception is prevalent in performing this type of work
.
Music Perception
Mixing is a fundamentally important step in the outcome of recording a piece of music, as
David Gibson (2005, p. 17) argues:
“
Mixing may be only a small part of all that is required to create
a great overall recording, yet it is one of the most powerful as
pects because the mix can be used to
hide weaknesses in other areas.
”
However, the same author points out that
“
[...] most people do not
differentiate between the individual parts that make up a piece of recorded music. Instead, they
listen to an overall '
sound' and rarely separate the mix from the music.
”
(GIBSON, 2005, p. 1
).
To achieve a satisfactory mix, one must first focus on music perception, an innate human
ability to
“
[...] perceive aurally, reflect on, and act creatively upon the music.
”
(BERNARDES,
2001, p. 75), developed throughout our evolution as a species from sound
perception, a defense
and protection mechanism to keep us always attentive to events in the surroundings (that is why
we can close our eyes but not our ears), and that can also become more refined through training.
14
“
With the ubiquity of digital audio workstations (DAWs), most producers, since the turn of the century, have
been capable of recording and manipulating audio in their workstation of choice. This further blurs the distinction
between audio engineering and pr
oduction
.”
image/svg+xml
Music production by voice commands in a sound perception application
Rev. Hipótese,
Bauru, v. 8,
esp. 1, e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
8
To better understand what musical
perception is all about, we turn to a more detailed
definition
:
Music perception is a sound perception in the context of music, that is, the
ability to perceive sound waves as part of a musical language. Music
perception primarily involves sound perceptio
n, the ability to identify physical
attributes of sound, such as volume, timbre, and pitch. In addition to sound
perception, music perception also involves musical elements such as melody
(melodic perception), rhythm (rhythmic perception), and harmony (har
monic
perception) (MATUNOBU, 2010, p. 22
, our translation
)
.
Sound perception occurs, for example, when we are amid a complex soundscape
15
consisting of many sounds of various origins, we are immersed in a large amount of sound
information whose
source and nature we often do not know. Yet we can perceive specific
nuances of these sounds
-
even if we cannot understand them in depth
-
such as intensity, pitch,
timbre, reverberation, etc. These are the perceptual aspects of sound. In music, one of th
e
fundamental elements of sound perception concerns the mental processing, by hearing, of
elementary aspects of sound that describe psychoacoustic
16
characteristics of the material
heard" (FORNARI, 2010, p. 12
, our translation
).
When we are
immersed in a disturbed soundscape and perceive sound information all
around us coming from the most diverse sources
,
Our ears receive, translate, and send all this sound information to the brain via
the auditory nerve through electrical signals. Although
this perceptual
information is entangled in the two receiving channels, which are the ears, we
are able, to some extent, to voluntarily focus our attention on a single
conversation, as well as move our attention from one sound source to another
according
to our interest, and disregard the rest. If someone calls our name in
this tumultuous sound environment, especially if we notice that it is a familiar
voice, our attention is immediately and involuntarily shifted to this person
(FORNARI, 2010, p. 21
, our t
ranslation
).
15
A concept popularized by R. Murray Schafer (2001, p. 24
, our translation
):
“
A soundscape consists of heard
events rather than seen objects,
”
and can be divided into fundamental sounds, the notes that identify the scale or
tonality of a song o
r the sounds created by geography and climate (water, wind, birds, insects, animals); signals,
sounds highlighted and consciously heard as acoustic warning resources (bells, whistles, horns, sirens); and sound
marks, sounds unique to a community that posse
sses certain qualities that make them especially meaningful or
noticeable to the people of that place (melting glaciers, erupting volcanoes, boiling sulfur fields) (SCHAFER,
2001).
16
“
Psychoacoustic features occur at sufficiently small time intervals befor
e the formation of a memorization
model of sound information (thus, there is no distinction between sound and musical psychoacoustic aspects).
Such aspects are associated with a time interval known in psychoacoustics as the auditory persistence interval,
c
onsidered to be around 0.1s in duration. Distinct sound events separated by time intervals shorter than the auditory
persistence interval are perceived as a single sound event
”
(FORNARI, 2010, p. 10
, our translation
).
image/svg+xml
Leonardo Porto PASSOS
e
José FORNARI
Rev. Hipótese,
Bauru, v. 8,
esp. 1,
e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
9
According to Gestalt theory (LERDAHL; JACKENDOFF, 1996; TENNEY;
POLANSKY, 1980), there are four basic principles of sound object identification in music
(FORNARI, 2010, p. 26
-
27
, our translation
)
:
1.
S
tructuring: understanding a set of
different events as a single structure. E.g.,
instruments, melody, harmony, rhythm, etc.;
2.
Segregation: noticing an event that stands out about the others.
E.g., the melody of a
solo instrument
;
3.
Pregnancy: to identify the simplest and most regular structure
s first and clearly. E.g., simple
rhythmic patterns (as opposed to polyrhythmic ones);
4.
Constancy: to perceive continuity in the variations between consecutive events and
understand them as belonging to the same context.
E.g., a car passing by with music
playing
.
With this enhanced capacity for sound perception, R. Murray Schafer (2001, p. 25
) states
that:
“
What the soundscape analyst needs to do, in the first place, is to discover its significant
aspects, those sounds that are important because of their individuality, quantity, or
preponderance.
”
And this discovery must also be performed by t
he music producer when mixing
the parts that make up a recorded piece of music
.
Schafer argues that one way to train in sound perception is what he metaphorically calls
“
ear cleaning
”
:
You start by listening to sounds. The world is full of sounds that
can hear
everywhere. The most obvious kinds of sounds are also the least heard, which
is why the ear
-
cleaning operation focuses on them. Some students have
cleaned their ears so much to hear the sounds around them that they can later
analyze them. When the
analysis process is accurate, it is possible to
reconstruct or imitate a sound that is heard synthetically. This is where ear
-
cleaning gives way to auditory training (SCHAFER, 1991, p. 103
-
104
, our
translation
)
.
Given the above, one can notice the import
ance of sound perception in music since the
musician is also immersed in a sound landscape that, in this case, refers to musical performance,
being even more significant in terms of communication between agents in the case of group
performance. Thus, a web
application was developed in which the user can perform sound
perception training and learn some tools used by music producers, as presented in the next
section
.
image/svg+xml
Music production by voice commands in a sound perception application
Rev. Hipótese,
Bauru, v. 8,
esp. 1, e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
10
A computational model of music perception
The best way to learn to listen is by
listening
,
17
as Schafer argues in his book The
Thinking Ear, 1991. Therefore, a web application whose inputs and feedback are given using
sounds presents a high potential for the training of sound perception, in the same way as audio
games, which present s
ome advantages in music education due to their emphasis on sound
resources (music, sound effects, and voices) and the decrease or even absence of visual
resources, as pointed out by Rovithis, Mniestris, and Floros:
In audio games [AGs], players must focus
on auditory stimuli to understand and
perform game tasks. Reducing or excluding visual information can enhance the
acquisition of skills such as memory and concentration. Moreover, GAs can
introduce everyone, even non
-
musicians, to musical concepts and pr
inciples,
serving as platforms on which players experiment and realize their ideas. Thus,
GA design can play an innovative role in research and education, especially in
curricula related to music and sound studies (ROVITHIS; MNIESTRIS;
FLOROS, 2014, p. 1,
our translation
)
.
Given these possibilities, we present a simple prototype of a web application for training
in sound perception and music production, with which the user will be able, through input by
voice commands (making the app accessible to the
visually impaired), to mix the music being
played, by
:
•
Adding and removing instruments, named as a bass drum, box, tom, cymbals, bass,
synth, arpeggio, melody, and effects
;
•
Switching audio effects on and off, named as chorus, compressor, delay, distortion,
flanger, high
-
pass filter, low
-
pass filter, reverb, and tremolo
;
•
Change panning to center (mono), left or right
.
The prototype was developed in the engine (software optimized for creating games)
Unity
18
. Its choice was due to the possibility of integration with the Fmod
19
middleware
20
which allowed the activation or deactivation of musical instruments and sound effects according
to the user's inputs, as well as changing the panning of the music
.
o keep
the user of the prototype app focused on the sounds without possible dispersion
because of too many visuals, we chose to use input by voice commands, which was made
17
Or even
“
listen by
listening
”
, since to listen is to listen attentively, consciously, according to Houaiss (2009,
entry
“
listen
”
): 1) be aware of what you are hearing; 2) be attentive to listen, pay attention to; 3) make an effort to
listen clearly.
18
Unity's official websit
e
:
https://unity.com/pt
.
Access: 10 Jan. 2022.
19
Official Fmod website
: https://www.fmod.com/.
Access: 10 Jan. 2022.
20
Middleware is computer software that provides services to application software beyond those available from
the operating system
.
image/svg+xml
Leonardo Porto PASSOS
e
José FORNARI
Rev. Hipótese,
Bauru, v. 8,
esp. 1,
e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
11
possible by the WebGL Speech
,
21
plugin, written in the C# programming language (the
same
used in Unity), which allows speech recognition by web browsers and converts the user's speech
into text (speech
-
to
-
text), more specifically into a string variable (which stores words), that can
be compared or manipulated to transform the user's speec
h commands into actions in the
application. Thus, the user can, for example, pronounce the name of a musical instrument or a
sound effect, as shown in Figure 1, to turn it off if it is on or on if it is off, which was possible
with the creation of a binary
variable of the bool type (which stores only two possible values
(true or false) to know if the instrument in question is on or off, and thus perform the action
commanded by the user. When an instrument or audio effect is on, its name appears green on
the
screen, and when it is off, the name turns red.
Figure 1
-
The prototype's user interface, with the instrument names on the left, audio effects on
the right, and the music playback indicator (speaker icon) and panning position in the center.
Source: Prepared by the authors
The same premise is used for the user to start or stop playing the music track, which is
indicated by a speaker icon in the center of the screen, which turns red when the music is not
playing (Figure 1) and turns green when
the music is playing (Figure 2). To play the music, the
user must say
“
play music
”
; to stop it, the user must pronounce
“
stop the music
”.
21
Availa
ble at
:
https://assetstore.unity.com/packages/tools/audio/webgl
-
speech
-
105831
.
Access: 10 Jan. 2022.
Drum kick
Snare drum
Tone
Cymbals
Bass guitar
Synthesizer
Arpeggio
Melody
Effects
Chorus
Compressor
Delay
Distortion
Flanger
High
-
pass filter
Low
-
pass filter
Reverberation
Tremolo
“Play music’’
Panning
‘’ left
’’, ‘’center’’, ‘’right’’
image/svg+xml
Music production by voice commands in a sound perception application
Rev. Hipótese,
Bauru, v. 8,
esp. 1, e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
12
Figure 2
-
The green speaker icon in the center indicates that music is playing, and the color of
the
instrument names and audio effects indicate whether they are active (green) or inactive (red).
Source: Prepared by the authors
To change the panning, the user can say
“
center
”
,
“
left,
”
or
“
right
”
so that the music will
play, respectively, in both speakers, in mono (Figure 1), only in the left speaker (Figure 2) or only
in the right speaker, and a letter (C, E or D) will appear at the bottom of the center of the screen,
below the word
“
Panning
”
.
By
default, the application was programmed to recognize words pronounced in
Portuguese, more specifically, Brazilian Portuguese (PT
-
BR). However, for some unknown
reason, the code used is not working as expected. For example, when the user accesses the
appli
cation through a browser configured in a language other than PT
-
BR, the prototype does
not work since the application only recognizes words pronounced in the PT
-
BR language. Thus,
the user needs to manually change the browser's language setting to PT
-
BR fo
r the model to
work correctly.
Furthermore, some problems occurred in the tests performed with speech recognition,
which needed to be corrected for the pronunciation of English words when transcribing them
into Portuguese. Therefore, for certain string var
iables to be compared and the intended result
to be possible, it was necessary to make adaptations or the spelling of English words, such as
“
chorus
”
, spelled as
“
corus
”,
and also adapted to
“
chorus
”
, which are the forms that the WebGL
Speech plugin's speech recognition usually transcribes the pronunciation of
“
chorus
”
. The
speech recognition could hardly identify the pronunciation of the word
“
flanger
”
and instead
understood the word
“
creak
”
, so thes
e two options were included to turn this effect on or off
when the user pronounces its name
.
Drum kick
Snare drum
Tone
Cymbals
Bass guitar
Synthesizer
Arpeggio
Melody
Effects
Chorus
Compressor
Delay
Distortion
Flanger
High
-
pass filter
Low
-
pass filter
Reverberation
Tremolo
Panning
‘’ left ’’, ‘’center’’, ‘’right’’
“Stop music’’
image/svg+xml
Leonardo Porto PASSOS
e
José FORNARI
Rev. Hipótese,
Bauru, v. 8,
esp. 1,
e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
13
When the user pronounces any of the keywords, being the commands to turn instruments
or effects on or off, the respective parameters created in Fmod are changed, w
hich causes the
effects or instruments to be turned on or off. In other words, the parameters were created within
Fmod but are manipulated by Unity according to the voice command inputs captured by the
speech recognition algorithm of the WebGL Speech plugi
n, which converts the spoken words
into text (speech
-
to
-
text). So these words are compared to variables of type string, and if the
comparison is effective, a certain previously programmed action occurs. This synergy between
Unity, Fmod, and WebGL Speech en
abled the development of the web application prototype
.
The prototype of this application is available for testing on itch.io
22
(a site for hosting
and distribution, paid or free, of independent games) and can be accessed through the link
https://leopassos.itch.io/musicmixer
.
Final considerations
In some presentation sessions of Music Mixer, as well as in some playtests
,
23
people
expressed enthusiasm and fun with the application. Some improvements need to be made so
that the proposal of offering music production education and sound perception training is more
effective and comes even closer to real mixing and music productio
n practice, even if within
certain limits, since not all mixing techniques and tools are available in the application. The use
of speech recognition inputs brings some drawbacks, such as the delay between the input and
the action and feedback by the applic
ation; the problems due to the language program in the
speech recognition and the one set in the browser; the inaccuracy of the speech recognition
system, which often fails to correctly capture the user's pronunciation, especially when the user
is not usin
g headphones, and the sound emitted by the speakers sometimes ends up disturbing
the speech recognition of the application; and the limitations of speech inputs, being less precise
and dynamic than other types of information, such as those performed by mou
se or touch
screen, which allow a greater variety of commands and actions by the user.
As future possibilities, we intend to allow the user to: include audio samples captured
in real time; change the tempo of the music; make touchscreen inputs in a mobile
version to
22
“
itch.io is an open marketplace for independent digital creators with a focus on independent video games. It’s
a platform that enables anyone to sell
the content they've created. As a seller you’re in charge of how it’s done:
you set the price, you run sales, and you design your pages. It’s never necessary to get votes, likes, or follows to
get your content approved, and you can make changes to how you
distribute your work as frequently as you like
.”
Available at
: https://itch.io/.
23
Some of the playtests were recorded and are available at:
https://youtu.be/HrxLHzuhg3w
.
Access: 10 Jna. 2022.
image/svg+xml
Music production by voice commands in a sound perception application
Rev. Hipótese,
Bauru, v. 8,
esp. 1, e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
14
increase the possibilities of use, including the option of adding audio effects to specific
instruments, and not to the music as a whole, as the current case of the prototype; and allow
volume control and panning of each instrument. With these i
mplementations, the user can
accomplish something very close, if not identical, to the mixing of the individual parts that
make up a recorded piece of music. However, it is a challenge to carry out these
implementations without abandoning the possibility o
f using voice commands so that the
application remains accessible to the visually impaired, as well as the possibilities of using
speech synthesis, with the text
-
to
-
speech system included in the WebGL Speech plugin
.
As future developments of works derived
from this one, aiming at the development of a
more sophisticated application and with more elaborate possibilities of use, we intend to use the
methodology of action research (TRIPP, 2005), which consists of 1) development, 2) tests, 3)
improvements, 4) co
llection of results and 5) restarting the process from step 1. Stages 2 and 4 it
is considered to collect data through playtests followed by the users filling out an online report,
with due authorization from the Research Ethics Committee (CEP) of the Stat
e University of
Campinas (Unicamp).
REFERENCES
ARAÚJO, D. V. G.
Uma breve história da mixagem
: Origem, técnicas, percepção e futuros
avanços. Campinas, 2015. Dissertação (Mestrado em Música)
–
Instituto de Artes, Universidade
Estadual de Campinas, São Paulo, 2015.
Available at
:
https://revistas.nics.unicamp.br/revistas/ojs/index.php/nr/article/vie
w/190.
Access
: 06
May
2021.
BENWARD, B.; SAKER, M.
Music in theory and practice
: v. 1.
8. ed. New York:
McGraw
-
Hill, 2009.
BERNARDES, V. A percepção musical sob a ótica da linguagem.
Revista da Abem
, v. 9, n. 6, p.
73
-
82, set. 2001.
Available at
:
www.abemeducacaomusical.com.br/revistas/revistaabem/index.php/revistaabem/article/view/444.
Access
: 05
Nov
. 2021.
BURGESS, R. J.
The art of music production
: The theory and practice. 4. ed. New York:
Oxford University Press, 2013.
BURGESS, R. J
.
The history of music production
. New York: Oxford University Press,
2014.
CASE, A. U.
Mix Smart
: Pro audio tips for your multitrack mix.
Oxford: Focal Press, 2011.
image/svg+xml
Leonardo Porto PASSOS
e
José FORNARI
Rev. Hipótese,
Bauru, v. 8,
esp. 1,
e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
15
FORNARI, J. Percepção, cognição e afeto musical.
In
: KELLER, D. (org.).
Criação musical
e tecnologias
: Teoria e prática interdisciplinar.
Goiânia: Anppom, 2010.
Available at
:
www.anppom.com.br/ebooks/index.php/ pmb/catalog/book/2.
Access
: 21
June
2021.
GIBSON, D.
The art of mixing
: A visual guide to recording, engineering, and production. 2.
ed. Boston: Thomson Course Technology, 2005.
HOUAISS, A [Instituto].
Houaiss Eletrônico
.
Versão 3.0. Rio de Janeiro: Objetiva, 2009.
HURON, D. Affect induction through musical sounds: an ethological perspective.
Phil.
Trans. R. Soc. B
, v. 370, n. 1664, mar. 2015.
Available at
:
https://royalsocietypublishing.org/doi/full/10.1098/rstb.2014.0098.
Access
: 10
Feb
. 2021.
HURON, D. Understanding Music
-
related emotion: Leslons from Ethology.
In
: PROC.
INTERN. CONF. ON MUSIC PERCEPTION AND COGNITION, 12.; TRIENNIAL CONF.
OF THE EUROPEAN SOC. FOR THE COGNITIVE SCIENCES OF MUSIC, 8., 2012,
Thessaloniki.
Anais
[…]. Thessaloniki,
Greece, 2012.
LERDAHL, F.; JACKENDOFF, R. S.
A generative theory of tonal music
.
3. ed. London:
MIT Press, 1996.
MATUNOBU, Y.
Desenvolvimento de software educativo para treinamento em
percepção musical
. 2010. Monografia (Trabalho de Conclusão de
Curso em Ciência da
Computação)
–
Fundação de Ensino Eurípides Soares da Rocha, Centro Universitário
Eurípides de Marília, São Paulo, 2010.
MELO, F.; PALOMBINI, C. O objeto sonoro de Pierre Schaeffer: Duas abordagens.
In
: XVI
ANPPOM, 16., 2006, Brasília.
Anais
[…]. Brasília, 2006.
Available at
:
https://antigo.anppom.
com.br/anais/anaiscongresso_anppom_2006/CDROM/COM/07_Com_TeoComp/sessao04/07
COM_TeoComp_0404
-
173.pdf.
Access
: 24
May
2021.
OLSSON, E.
Aesthetic signal processing in music production
: Is the intended emotional
response achieved? Lulea. 2015. Monografia (Trabalho de Conclusão de Curso em
Engenharia de Áudio)
–
Department of Arts, Communication and Education, Lulea University
of Technology, 2015.
Available at
: https://www.diva
-
portal.or
g/smash/record.jsf?pid=diva2%3A1018575&dswid=
-
3321.
Access
: 23
Feb
. 2021.
RECORDING ACADEMY.
Producers & Engineers Wing, Technical Guidelines
. Producer
Grammy Award Eligibility Crediting Definitions, March 01, 2019.
Available at
: www.grammy.
com/sites/com/files/producer_definitions_final_03_01_2019.pdf.
Access
: 17
June
. 2021.
RONAN, D.; REISS, J. D.; GUNES, H. An empirical approach to the relationship between
emotion and music production quality.
ArXiv
, mar. 2018.
ROVITHIS, E.; MNIESTRIS, A.; FLOROS, A. Educational audio
game
design: sonification
of the curriculum through a ro
le
-
playing scenario in the audio
game
‘Kronos’.
In
: AM 2014,
9., 2014, New York.
Anais
[…]. New York, NY, USA, 2014.
SCHAFER, R. M.
A afinação do mundo
.
São Paulo: Ed. Unesp, 2001.
image/svg+xml
Music production by voice commands in a sound perception application
Rev. Hipótese,
Bauru, v. 8,
esp. 1, e022020
, 2022.
e
-
ISSN: 2446
-
7154
DOI:
https://
doi.org/
10.47519/eiaerh.v8.2022.ID414
|
16
SCHAFER, R. M.
O ouvido pensante
. São Paulo: Fundação Editora da
Unesp, 1991.
TENNEY, J.; POLANSKY, L. Temporal Gestalt perception in music.
Journal of Music
Theory
, Autumn, v. 24, n. 2, p. 205
-
241, 1980.
Available at
:
https://www.jstor.org/stable/843503.
Access
: 19
Feb
. 2021.
TRIPP, D.
Pesquisa
-
ação: Uma introdução metodológica.
Educação e Pesquisa
, São Paulo,
v. 31, n. 3, p. 443
-
466, set./dez. 2005.
Available at
:
http://educa.fcc.org.br/pdf/ep/v31n03/v31n03a09.pdf.
Access
: 21
Sept
. 2021.
TURINO, T.
Music as social life
: The
politics of participation. Chicago: The University of
Chicago Press, 2008.
ABOUT THE AUTHORS
Leonardo Porto PASSOS
State University of Campinas
(UNICAMP)
, Campinas
–
SP
–
Brasil
.
Master's student at the
Graduate Program in Music (PPGM) at the
Institute of Arts (IA).
José FORNARI
State University of Campinas
(UNICAMP), Campinas
–
SP
–
Brasil
.
Career Researcher Pq at
CPG/DM/IA.
Doctoral degree in Electrical Engineering (UNICAMP
).
Processing and publication by the
Editora Ibero
-
Americana de Educação.
Reviewing, formatting, standardization and translation.