image/svg+xmlRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 1PRODUÇÃO MUSICAL POR COMANDOS DE VOZ EM UM APLICATIVO DE PERCEPÇÃO SONORAPRODUCCIÓN MUSICAL POR COMANDOS DE VOZ EN UNA APLICACIÓN DE PERCEPCIÓN DE SONIDOMUSIC PRODUCTION BY VOICE COMMANDS IN A SOUND PERCEPTION APPLICATIONLeonardo Porto PASSOSUniversidade Estadual de Campinas(UNICAMP)e-mail: leoportopassos@gmail.comJosé FORNARIUniversidade Estadual de Campinas (UNICAMP)e-mail: fornari@unicamp.brComo referenciar este artigoPASSOS, L. P. FORNARI, J. Produção musical por comandos de voz em um aplicativo de percepção sonora. Revista Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154. DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414Submetido em: 10/03/2022Revisões requeridas em: 05/05/2022Aprovado em: 01/07/2022Publicado em: 01/12/2022
image/svg+xmlProdução musical por comandos de voz em um aplicativo de percepção sonoraRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 2RESUMO: Neste artigo, apresentamos o protótipo de um aplicativo webacessível a deficientes visuais para educação em produção musical e treinamento em percepção sonora, com o qual o usuário pode, por meio de entradas por comandos de voz, mixar a música em execução, ao adicionar e remover instrumentos musicais e efeitos deáudio e alterar o panning. A mixagem é de fundamental importância no processo de gravação musical, mas muitos ouvintes e músicos desconhecem as ferramentas e técnicas utilizadas nessa etapa, não conseguindoidentificar tais procedimentos, que conferem singularidade e características estéticas especiais a uma gravação, o que motivou o desenvolvimento do appproposto.PALAVRAS-CHAVE: Produção musical. Percepção sonora. Desenvolvimento de aplicativo.RESUMEN: En este artículo presentamos el prototipo de una aplicación web accesible para personas con discapacidad visual para la educación en producción musical y la formación en percepción del sonido, con la cual el usuario puede, a través de comandos de voz, mezclar la música en ejecución, agregando y quitando instrumentos musicales. y efectos de audio y cambiar la panorámica. La mezcla es de fundamental importancia en el proceso de grabación musical, pero muchos oyentes y músicos desconocen las herramientas y técnicas que se emplean en esta etapa, no pudiendoidentificar dichos procedimientos, los cuales le dan singularidad y características estéticas especiales a una grabación, lo que motivó el desarrollo de la aplicación propuesta.PALABRAS CLAVE:Producción musical. Percepción del sonido. Desarrollo de aplicaciones.ABSTRACT: In this article, we present the prototype of a web application accessible to the visually impaired for music production education and training in sound perception. Through voice commands, the user can mix the music being played by adding and removing musical instruments and audio effects and changing panning. Mixing is of fundamental importance in the musical recording process, but many listeners and musicians are unaware of the tools and techniques used in this stage, not being able to identify such procedures, which give uniqueness and special aesthetic characteristics to a recording, which motivated the development of the proposed app.KEYWORDS:Music production. Sound perception. Application development.
image/svg+xmlLeonardo Porto PASSOSe José FORNARIRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 3IntroduçãoÉ muito comum que um ouvinte, principalmente um não músico, possua uma predileção especial por determinada composição musical sem que saiba ao certo o porquê dessa afetividade, considerando haver algo naquela música que evoca suas emoções, mas foge à sua compreensão. E quando a mesma música é apreciada em uma performanceao vivo, sem a utilização dos mesmos recursos de estúdio, muitas vezes aquela relação afetiva de antes se rompe, e a sensação já não é a mesma, ainda que a performancetenha sido bastante fidedigna à gravação musical tão estimada por aquele apreciador. O que pode ocorrer nesses casos é que o ouvinte possui algum apreço pela estética imbuída pelo produtor musical àquela gravação (sem contar a participação do compositor e do intérprete, já que o nosso foco aqui é a produção musical, mais precisamente a mixagem), conferindoa ela novos contornos (para além daqueles oferecidos por compositores e intérpretes), que muitas vezes são difíceis de serem reproduzidos durante a performance, por diversas razões, que vão desde as diferenças de tratamento acústico do ambiente de gravação do estúdio em relação ao local da performanceaté os equipamentos disponíveis para a coleta, registro, processamento e geração sonora.Nas palavras de David Huron (2015, p. 1), “A música consegueevocar uma ampla gama de estados de sentimento, do trivial ao sublime.”,1issoocorre por conta de quatro tipos de geradores emocionais: 1) associação: “[]certos sons ou padrões sonoros podem ser associados a experiências emocionais passadas.”;22) empático: “[]o ouvinte reconhece características acústicas associadas a emoções particulares.”;33) cognitivo: “Pensamentos conscientes podem levar o ouvinte a uma experiência particular.”;4e 4) sinalização: “[]um sinal que muda o comportamento do observador.”5(HURON, 2012, p. 479).Além dos papéis do compositor e do intérprete em evocar sentimentos ao ouvinte, há também a participação do produtor musical no processo de mixagem, conforme Richard James Burgess (2013, p. 73): “A mixagem estende todas as técnicas musicais que a precedem, fortalecendo a percepção da música ao reforçar a estrutura, a orquestração e o afeto emocional para a audiência pretendida.”.6A mixagem pode intensificar a evocação de emoções, ou contribuir para que ela ocorra, por meio do uso adequado de equalizador, filtros, distorção, chorus, dinâmicas, 1Music is capable of evoking a wide range of feeling states from the pedestrian to the sublime.”2[]certain sounds or sound patterns may become associated with past emotional experiences.”3[]a listener recognizes acoustic features associated with particular emotions.”4Conscious thoughts can lead a listener to a particular experience.”5[]a signal is to change the behavior of the observer.”6Mixing extends all the musical techniques that precede it, strengthening the perception of the song by reinforcing the structure, orchestration, and emotional affect for the intended audience.”
image/svg+xmlProdução musical por comandos de voz em um aplicativo de percepção sonoraRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 4compressor, reverberação, eco, pitch shifting,etc. (CASE, 2011), e diz respeito ao seguinte processo:[]refere-se à mixagem original de uma faixa quando a instrumentação e os vocais são equilibrados entre si e quaisquer efeitos ou tratamentos necessários são adicionados. []Uma mixagem deve otimizar a música, o vocal, as performances, o arranjo e a engenharia. Deve soar bem em uma ampla gama de sistemas de alta e baixa gama e em qualquer volume7(BURGESS, 2013, p. 102, traduçãonossa).A produção musical que inclui gravação sonora, arranjo, orquestração, efeitos, mixagem, masterização,etc., como veremos em mais detalhes adiante é fundamental para que seja possível obter qualidade na captação dos instrumentos e vozes e para que tudo possa ser ouvido com clareza e definição, de acordo com conceitos estéticos variados, que podem até mesmo privilegiar certas “imperfeições” e a baixa fidelidade sonora8(low-fidelityou lo-fi). Há grande preocupação com a clareza das texturas musicais9e com a separação das partes, em um processo tornaimperceptíveis os procedimentos de gravação, ou ao menos reduzir os métodos de produção musical (captação e gravação, adição de efeitos, mixagem, masterização) de modo que a gravação seja percebida como uma representação fiel ou “real” da performancemusical (TURINO, 2008).Porém, como afirma Burgess (2013, p. 2, traduçãonossa), os processos e as técnicas da produção musical, bem como seus resultados, são desconhecidos por muitas pessoas, até mesmo por músicos: “[]creio que a produção musical é uma artemal compreendida, mesmo naindústria.”10[musical]. E é com o propósito de oferecer a experiência de realizar uma mixagem musical básica que foi desenvolvido o protótipo de um aplicativo web11de treinamento em percepção musical, e desse modo, útil para aeducação em produção musical, já que permite ao usuário compreender certos recursos e técnicas utilizados por produtores musicais em mixagem e concepções criativas em termos estéticos.7[]mix refers to the original mix of a track when the instrumentation and vocals are balanced with each other and any needed effects or treatments are added. []A mix should optimize the song, the vocal, the performances, the arrangement, and the engineering. It should sound good on a wide range of high-and low-end systems, and at any volume.”8Disponível em: https://ora.ox.ac.uk/objects/uuid:cc84039c-3d30-484e-84b4-8535ba4a54f8.Acesso em: 10 jan. 2022.9“O termo textura se refere à maneira como os materiais melódicos, rítmicos e harmônicos são tecidos juntos em uma composição” (The term texture refers to the way the melodic, rhythmic, and harmonic materials are woven together in a composition) (BENWARD; SAKER, 2009, p. 145, traduçãonossa).10[]I felt that the art of music production was poorly understood, even within the industry”.11Disponível em: https://edu.gcfglobal.org/pt/informatica-basica/o-que-e-um-aplicativo-web/1/.Acesso em: 10 jan. 2022.
image/svg+xmlLeonardo Porto PASSOSe José FORNARIRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 5Para tal, explicaremos a seguir o que é a produção musical, bem como adefinição de percepção musical e as razões que nos levaram a optar pelo desenvolvimento de um aplicativo com entradas (inputs) por comandos de voz.Produção musicalA história da produção musical teve início com o surgimento da gravação, reprodução e mídia, atribuídas a Thomas Alva Edison com a invenção do seu Fonógrafo, em 1877, um aparelho para gravação e reprodução de sons a partir de um cilindro, o que se configurou como um marco conceitual e estético da produção musical por possibilitar, de fato, a “solidificação”, por assim dizer, da intangibilidade do material sonoro que compõe a música, permitindo toda forma de processamento e análise sonora. Com este novo aparelho e o decorrente desenvolvimento de novas tecnologias para gravação e reprodução sonora o que trouxe novas oportunidades para o registro musical, antes possível somente pela notação musical (com suaslimitações, pois a expressividade de uma performancenão é registrada pela notação), e para a composição musical , surgiu anecessidade de técnicas capazes de combinar composição, arranjo, orquestração, interpretação, improvisações, timbres e performanceem um todo sônico imutável (immutable sonic whole) (BURGESS, 2014, p. 1), ou um “objeto sonoro”12imutável. Na definição de Burgess:A produção musical é a extensão tecnológica da composição e orquestração. Ela captura a plenitude de uma composição, sua orquestração e as intenções performativas do(s) compositor(es). Em sua precisão e capacidade inerente de capturar sutilezas culturais, individuais, ambientais, timbrísticas e interpretativas junto com entonação, tempo, intenção e significado (exceto quando se busca o amorfo), é superior à música escrita e às tradições orais. A produção musical não é apenas representativa, mas também uma arte em si13(BURGESS, 2013, p. 5, traduçãonossa).De acordo com o Grammy Award Eligible Credit Definitions(RECORDING ACADEMY, 2019), o produtor musical é o responsável por decisões criativas, técnicas e estéticas que atendam aos objetivos do artista e do proprietário dos direitos autorais da gravação de som na criação de conteúdo musical, muitas vezes sendo considerado, quando já não é o 12Termo criado por Pierre Schaeffer para referir-se a um trecho de áudio com uma unidade de informação sonora cuja referência imagética é latente ou inexistente (MELO; PALOMBINI, 2006).13Music production is the technological extension of composition and orchestration. It captures the fullness of a composition, its orchestration, and the performative intentions of the composer(s). In its precision and inherent ability to capture cultural, individual, environmental, timbral, and interpretive subtleties alongwith those of intonation, timing, intention, and meaning (except where amorphousness is specified), it is superior to written music and oral traditions. Music production is not only representational but also an art in itself.”
image/svg+xmlProdução musical por comandos de voz em um aplicativo de percepção sonoraRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 6caso, outro membro do grupo musical, com a mesma ou até maior importância que os músicos. O produtor pode executar, dirigir performances, escolher tomadas ou versões finais e supervisionar a seleção de músicas, músicos, cantores, arranjadores, estúdios,etc. É também o responsável por realizar ou supervisionar a mixagem, a masterização14e o controle de qualidade geral de uma gravação musical.Pode-se definir a mixagem como a utilização, de forma criativa e por vezes intuitiva,de técnicas e ferramentas para mesclar, moldar e equalizar o som de um ou mais canais de áudio, com conteúdo de distintas fontes sonoras, paraalcançar um objetivo estético específico (ARAÚJO, 2015). A utilização da mixagem de forma criativa, bem como seus aspectos técnicos, pode ser evidenciada de forma mais clara e detalhada:Mixar música está relacionado com processar apresentações musicais gravadas. O objetivo desse processamento pode ser fazer com que a gravação soe natural e realista, como se você estivesse na sala quando os músicos se apresentaram. E também pode ser usado para alterar drasticamente o caráter sônico da gravação, criando uma paisagem sonora muito diferente que talvez nem seja possível de alcançar na vida real. Para fazer isso, o engenheiro de mixagem possui uma grande variedade de ferramentas, analógicas e digitais. Essas ferramentas são chamadas de processadores de sinais ou efeitos. []Os engenheiros de mixagem podem, portanto, usar o processamento de sinal por razões outras que não meramente técnicas. O processamento de sinais pode ser usado de maneiras estéticas e criativas para fazer as coisas parecerem maiores, mais apaixonadas e mais emocionais. Mesmo que o sinal original possa ser fortemente enviesado ou distorcido no processo, fazendo com que soe pouco natural ou com uma qualidade de áudio inferior, muitas vezes é considerado desejável. [...]Ao mixar música, os engenheiros de mixagem às vezes usam o processamento de sinal para suscitar um impacto emocional específico no ouvinte. Por exemplo, uma faixa vocal pode ser mixada com muita reverberação e delay com a intenção de induzir uma emoção onírica ou melancólica15(OLSSON, 2015, p. 2, traduçãonossa).14“A masterização é a etapa final de otimização do material gravado enquanto ele é transferido para o(s) formato(s) que será(ão) utilizado(s) no processo de fabricação” (Mastering is the final stage of optimization of the recorded material while transferring it to the format(s) that will be used in the manufacturing process) (BURGESS, 2014, p. 48, traduçãonossa).15Mixing music is about processing recorded musical performances. The goal of this processing can be to make the recording sound natural and realistic, just as if you were there in the room when the musicians performed. It can also be used to drastically change the sonic character of the recording, creating a vastly different soundscape maybe not even possible to achieve in real life. To do this, the mixing engineer has a wide variety of tools, both analog and digital. These tools are called signal processors, or effects. []Mixing engineers may therefore use signal processing for reasons other than mere technical. Signal processing can be used in aesthetic and creative waysas to make things sound bigger, more passionate and more emotional. Even though the original signal may be heavily skewed or distorted in the process, making it sound unnatural or of a lesser audio quality, it is often times found desirable. []When mixing music, mixing engineers sometimes use signal processing in a way as to achieve a specific emotional impact in the listener. For example, a vocal track may be mixed with lots of reverb and delay with the intention of inducing a dreamy or melancholic emotion.”
image/svg+xmlLeonardo Porto PASSOSe José FORNARIRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 7De acordo com Burgess (2013), a produção musical é antecedida pela fase de pré-produção e seguida pela etapa de pós-produção:a)Pré-produção: fase preparatória de tomada de decisões para a seleção, organização e refinamento do material musical;b)Produção: preparar (escolher e posicionar) microfones, instrumentos, fones de ouvido, efeitos (delay, reverberação,etc.), equalizadores e compressores (pré-mixagem) e realizar as sessões de gravações, tudo com base em escolhas estéticas iniciadas na etapa anterior;c)Pós-produção: etapa darealização da mixagem, que consiste em equilibrar e otimizar os componentes da produção para o máximo impacto musical e clareza perceptiva das partes, utilizar recursos como equalização, compressão, panning,16compressão, limitação, expansão, gating, reverberação, delayse outros efeitos para otimizar os sons, aumentar seu impacto e garantir que ocupem seu próprio espaço no espectro de áudio. E por fim, a masterização, sendoa preparação de uma mídia ou arquivo digital único com a junção de todas as demais gravações que compõem uma peça musical (música) ou um conjunto delas (álbum).É comum que algumas dessas etapas sejam realizadas por profissionais distintos, especializados em funções específicas. Mas “Com a onipresença das estações de trabalho de áudio digital (DAW [digital audio workstation]), a maioria dos produtores, desde a virada do século, conseguemgravar e manipular áudio na DAW de sua escolha. Isso confunde ainda mais a distinção entre engenharia e produção de áudio.”17(BURGESS, 2013, p. 29, traduçãonossa).É na fase de pós-produção que se concentram as etapas mais relevantes para o presente estudo, em especial a mixagem:Na fase de pós-produção, o engenheiro de mixagem combina as gravações por meio da mixagem e edição para obter uma mixagem final. Predominantemente, quanto mais habilidoso for o engenheiro de mixagem, melhor será a mixagem final em termos de qualidade de produção. A mixagem de áudio envolve a aplicação de técnicas de processamento de sinal a cada trilha de áudio gravada, por meio das quais o engenheiro manipula as características dinâmicas (equilíbrio e compressão de faixa dinâmica), espaciais (panorâmica estéreo ou surrounde reverberação) e espectrais (equalização) do material de origem. Uma vez que a mixagem final foi criada, ela é enviada para um estúdio de masterização, em que um processamento adicional é aplicado para que a gravação musical possa ser distribuída para 16“O movimento panorâmico, o posicionamento para a esquerda ou direita dos sons entre os alto-falantes” (Panning, the left/right placement of sounds between the speakers) (GIBSON, 2005, p. 22, traduçãonossa).17With the ubiquity of digital audio workstations (DAWs), most producers, since the turn of the century, have been capable of recording and manipulating audio in their workstation of choice. This further blurs the distinction between audio engineering and production.”
image/svg+xmlProdução musical por comandos de voz em um aplicativo de percepção sonoraRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 8audição em um ambiente doméstico ou de clube18(RONAN; REISS; GUNES, 2018, p. 1, traduçãonossa).Independentemente da função específica desempenhada pelo profissional de produção musical, a percepção musical aguçada é preponderante para a realização desse tipo de trabalho.Percepção musicalA mixagem é uma etapa de fundamental importância para o resultado da gravação de uma peça musical, conforme defende David Gibson (2005, p. 17, traduçãonossa): “A mixagem pode ser apenas uma pequena parte de tudo o que é necessário para criar uma ótima gravação geral; no entanto, é um dos aspectos mais poderosos, porque a mixagem pode ser utilizada para esconder pontos fracos em outras áreas.”.19No entanto, o mesmo autor salienta que “[]a maioria das pessoas não diferencia as partes individuais que compõem uma peça musical gravada. Elas escutam um ‘som’ geral e raramente separam a mixagem da música.”.20(GIBSON, 2005, p. 1, traduçãonossa).Para que seja possível realizar uma mixagem satisfatória, é necessário, antes, concentrar-se na percepção musical, uma capacidade humana inata de “[]perceber auditivamente, refletir e agir criativamente sobre a música.” (BERNARDES, 2001, p. 75), desenvolvida ao longo de nossa evolução enquanto espécie a partir da percepção sonora, um mecanismo de defesa e proteção para que nos mantivéssemos sempre atentos aos acontecimentos no entorno (por isso somos capazes de fechar os olhos, mas não os ouvidos), e que também pode se tornar mais apurada por meio de treinamento.Para melhor compreensão do que se trata a percepção musical, recorremos a uma definição mais detalhada:A percepção musical é a percepção sonora no contexto musical, ou seja, a capacidade de perceber ondas sonoras como parte de uma linguagem musical. A percepção musical envolve principalmente a percepção sonora, que é a capacidade de identificar atributos físicos do som, como volume, timbre e 18In the post-production stage, the mix engineer combines the recordings through mixing and editing to achieve a final mix. Predominately, the more skilled the mix engineer is, the better the final mix sounds in terms of production quality. The mixing of audio involves applying signal processing techniques to each recorded audio track whereby the engineer manipulates the dynamics (balance and dynamic range compression), spatial (stereo or surround panning and reverberation), and spectral (equalisation) characteristics of the source material. Once the final mix has been created, it is sent to a mastering studio where additional processing is applied before it can be distributed for listening in a home or a club environment.”19The mix may only be one small part of everythingthat goes into creating a great overall recording; however, it is one of the most powerful aspects because the mix can be utilized to hide weaknesses in other areas.”20[]most people don’t differentiate between the individual parts that make up a recorded piece of music. They hear an overall “sound” and rarely separate the mix from the music.”
image/svg+xmlLeonardo Porto PASSOSe José FORNARIRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 9afinação. Além da percepção sonora, a percepção musical envolve também elementos musicais como melodia(percepção melódica), ritmo (percepção rítmica) e harmonia (percepção harmônica) (MATUNOBU, 2010, p. 22).A percepção sonora ocorre, por exemplo, quando estamos em meio a uma paisagem sonora21complexa, constituída de diversos sons de origens variadas, somos imersos em uma grande quantidade de informações sonoras cuja fonte e natureza muitas vezes desconhecemos. Ainda assim, somos capazes de perceber claramente determinadas nuances desses sons mesmo que não consigamoscompreendê-los em profundidade , como intensidade, altura, timbre, reverberação,etc. Estes são os aspectos perceptuais sonoros. Na música, um dos elementos fundamentais da percepção sonora diz respeito ao processamento mental, pela audição, de aspectos elementares do som, que descrevem características psicoacústicas22do material escutado” (FORNARI, 2010, p. 12).Quando estamos imersos em uma paisagem sonora conturbada e percebemos informações sonoras por todo o redor, oriundas das mais diversas fontes,Nossos ouvidos estão recebendo, traduzindo e enviando toda essa informação sonora para o cérebro pelo nervo auditivo, na forma de sinais elétricos. Apesar dessa informação perceptual estar emaranhada nos dois canais de recepção, que são os ouvidos, somos capazes, até certo ponto, de focalizar nossa atenção voluntariamente em uma única conversa, bem como mover nossa atenção de uma fonte sonora para outra, de acordo com nosso interesse, e desconsiderar o restante. Se, nesse ambientesonoro tumultuado, alguém chama pelo nosso nome, especialmente se constatarmos que se trata de uma voz conhecida, a nossa atenção é imediatamente e involuntariamente deslocada para esta pessoa (FORNARI, 2010, p. 21).Segundo a teoria da Gestalt (LERDAHL;JACKENDOFF, 1996; TENNEY; POLANSKY, 1980) existem quatro princípios básicos da identificação de objetos sonoros em música (FORNARI, 2010, p. 26-27):21Conceito popularizado por R. Murray Schafer (2001, p. 24): “Uma paisagem sonora consiste em eventos ouvidose não em objetos vistos”, e pode ser dividida em: sons fundamentais, as notas que identificam a escala ou tonalidade de uma música ou os sons criados pela geografia e pelo clima (água, vento, pássaros, insetos, animais); sinais, sons destacados e ouvidos conscientemente como recursos de avisos acústicos (sinos, apitos, buzinas, sirenes); e marcas sonoras, sons únicos de uma comunidade, que possuem certas qualidades que os tornam especialmente significativos ou notados pelas pessoas daquele lugar (derretimento de geleiras, vulcões em erupção, campos de enxofre fervente) (SCHAFER, 2001).22“Características psicoacústicas ocorrem em intervalos de tempo suficientemente pequenos, anteriores à formação de um modelo de memorização de informação sonora (assim, não existe distinção entre aspectos psicoacústicos sonoros e musicais). Tais aspectos estão associados a um intervalo de tempo conhecido na psicoacústica como intervalo da persistência auditiva, considerado em torno de 0,1s de duração. Eventos sonoros distintos, separados por intervalo de tempo menor que o da persistência auditiva são percebidos como um único evento sonoro” (FORNARI, 2010, p. 10).
image/svg+xmlProdução musical por comandos de voz em um aplicativo de percepção sonoraRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 101.Estruturação: compreender um conjunto de diferentes eventos como uma estrutura única. Ex.: instrumentos, melodia, harmonia, ritmo,etc.;2.Segregação: notar um evento que se sobressai em relação aos demais. Ex.: a melodia de um instrumento solo;3.Pregnância: identificar primeiro e de forma clara as estruturas mais simples e regulares. Ex.: padrões rítmicos simples (ao contrário do que ocorre na polirritmia);4.Constância: perceber a continuidade nas variações entre eventos consecutivos e entendê-los como pertencentes a um mesmo contexto. Ex.: um carro que passa com música tocando.Com essa capacidade aprimorada de percepção sonora, R. Murray Schafer (2001, p. 25) afirma que: “O que o analista da paisagem sonora precisa fazer, em primeiro lugar, é descobrir os seus aspectos significativos, aqueles sons importantes devido asua individualidade, quantidade ou preponderância.”. E essa descoberta deve ser realizada também pelo produtor musical, ao realizar a mixagem das partes que compõem uma peça musical gravada.Schafer defende que uma das formas de se realizar o treinamento em percepção sonora é o que ele chama metaforicamente de “limpeza-de-ouvidos” (ear cleaning):Começa-se ouvindo sons. O mundo é cheio de sons que podem ser ouvidos em toda a parte. As espécies mais óbvias de sons são também as menos ouvidas, essa é a razão da operação limpeza-de-ouvidos concentrar-se nelas. Alguns alunos limparam tanto seus ouvidospara ouvir os sons que os rodeiam que já podem partir para um estágio posterior e passar a nalisa-los. Quando o processo de análise foi acurado, é possível reconstruir sinteticamente, ou ao menos imitar, um som que se ouve. Esse é o ponto em que a limpeza-de-ouvidos dá lugar ao treinamento auditivo (SCHAFER, 1991, p. 103-104).Diante do exposto, nota-se a importância da percepção sonora no viés musical, uma vez que o músico está também imerso em uma paisagem sonora que, no caso, refere-se à performancemusical, sendoainda mais significativa em termos de comunicação entre agentes, no caso da performanceem grupo. Assim, foi desenvolvido um aplicativo web no qual o usuário poderá tanto realizar treinamento em percepção sonora quanto aprender algumas ferramentas utilizadas por produtores musicais, conforme apresentado na próxima seção.
image/svg+xmlLeonardo Porto PASSOSe José FORNARIRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 11Modelo computacional de percepção musicalA melhor forma de aprender a ouvir é ouvindo,23como bem defende Schafer em seu livro O ouvido pensante, de 1991. Diante disso, uma aplicação webcujos inputse feedbacksse dão por meio de sons apresenta um potencial elevado para o treinamento da percepção sonora, da mesma forma que os audiogames,24que apresentam algumas vantagens em educação musical pelaênfase nos recursos sonoros (músicas, efeitos sonoros e vozes) e diminuição ou até mesmo ausência de recursos visuais, conforme apontam Rovithis, Mniestris e Floros:Nos audiogames[AGs] em particular, os jogadores precisam se concentrar em estímulos auditivos a fim de compreender e realizar as tarefas de jogo. A redução ou exclusão de informações visuais pode potencializar a aquisição de habilidades, como memória e concentração. Além disso, os AGs podem apresentar a todos, mesmo aos não músicos, conceitos e princípios musicais, servindo como plataformas nas quais os jogadores experimentam e realizam suas ideias. Assim, o design de AG pode desempenhar um papel inovador na pesquisa e na educação, especialmente em currículos relacionados à música e aos estudos de som25(ROVITHIS; MNIESTRIS; FLOROS, 2014, p. 1, traduçãonossa).Diante dessas possibilidades, apresentamos um protótipo simples de um aplicativo webde treinamento em percepção sonora e produção musical, com o qual o usuário poderá, por meio de entradas por comandos de voz (tornandoo appacessível a deficientes visuais), mixar a música em execução, ao:Adicionar e remover instrumentos, nomeados como bumbo, caixa, tom, pratos,baixo, sintetizador, arpejo, melodia e efeitos;Ligar e desligar efeitos de áudio, nomeados como chorus, compressor, delay, distorção, flanger, filtro passa-alto, filtro passa-baixo, reverberação e tremolo;Alterar o panningpara o centro (mono), para a esquerda ou para a direita.23Ou ainda, “escutar escutando”, já que escutar é ouvir com atenção, conscientemente, conforme Houaiss (2009, verbete “escutar”): 1) estar consciente do que está ouvindo; 2) ficar atento para ouvir, dar atenção a; 3) esforçar-se para ouvir com clareza.24Audiogamessão jogos eletrônicos cujo conteúdo (narrativa, mecânicas, comunicação) é veiculado, principalmente ou exclusivamente, por meio do som (ROVITHIS; MNIESTRIS; FLOROS,2014).25The application of educational theories on computer games, as well as the interactivity that computer games, unlike other forms of entertainment, such as books, music and movies, can provide, have made them an increasingly used medium for education. Particularly in AGs, players need to focus on aural stimuli, in order to understand and accomplish the game-play tasks. The reduction or exclusion of visual information can enhance the acquisition of skills, such as memory and concentration. Furthermore, AGs can introduce everyone, even non-musicians, to musical concepts and principles, by serving as platforms, on which players experiment and realize their ideas. Thus, AG-design can play a groundbreaking role in research and education especially on curricula related to music and sound studies.”
image/svg+xmlProdução musical por comandos de voz em um aplicativo de percepção sonoraRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 12O protótipo foi desenvolvido na engine(softwareotimizado para a criação de games) Unity.26Sua escolha se deu por conta da possibilidade de integração com a middleware27Fmod,28que permitiuativar ou desativar os instrumentos musicais e os efeitos de som conforme asentradas do usuário, bem como alterar o panningda música.Com o intuito de manter o usuário do protótipo do app focado nos sons, sem possíveis dispersões por conta de muitos recursos visuais, optou-se pelo uso de entradas por comandos de voz, o que foi possibilitado pelo pluginWebGL Speech,29escrito na linguagem de programação C# (a mesma utilizada no Unity), que permite o reconhecimento de fala pelos navegadores de internet (browser) e que converte a fala do usuário em texto (speech-to-text), mais especificamente em uma variável do tipo string (que armazena palavras), que pode ser comparada ou manipulada para que seja possível transformar os comandos de fala do usuário em ações noaplicativo. Assim, o usuário pode, por exemplo, pronunciar o nome de um instrumento musical ou de um efeito sonoro, conforme a Figura 1, para desligá-lo, caso esteja ligado, ou ligá-lo, caso esteja desligado, o que foi possível com a criação de uma variável binária do tipo bool (que armazena apenas dois valores possíveis (trueou false, ou seja, verdadeiro ou falso) para saber se o instrumento em questão está ligado ou desligado, e assim realizar a ação comandada pelo usuário. Quando um instrumento ou efeito de áudio está ligado, seu nome aparece em verde na tela, e quando está desligado, o nome fica vermelho.26Websiteoficial do Unity: https://unity.com/pt.27Um middlewareé um softwarede computador que fornece serviços para softwaresaplicativos além daqueles disponíveis pelo sistema operacional.28Websiteoficial do Fmod: https://www.fmod.com/.29Disponível em: https://assetstore.unity.com/packages/tools/audio/webgl-speech-105831.
image/svg+xmlLeonardo Porto PASSOSe José FORNARIRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 13Figura 1 Interface de usuário do protótipo, com os nomes dos instrumentos à esquerda, efeitos de áudio à direita e o indicador da reprodução da música (ícone de alto-falante) e a posição do panningao centro.Fonte: Elaborado pelos autoresA mesma premissa é utilizada para o usuário iniciar ou parar a reprodução da trilha musical, o que é indicado por um ícone de alto-falante no centro da tela, que fica vermelho quando a música não está em execução (Figura 1) e se torna verde quando a música está em execução (Figura 2). Para reproduzir a música, o usuário deve dizer “tocar música”, e para interrompê-la, deve pronunciar “parar música”.Figura 2 O ícone de alto-falante verde ao centro indica que a música está em execução, bem como a cor dos nomes dos instrumentos e efeitos de áudio indica se eles estão ativos (verde) ou inativos (vermelho).Fonte: Elaborado pelos autores.Para alterar o panning, o usuário pode dizer “centro”, “esquerda” ou “direita”, para que a música seja executada, respectivamente, nos dois alto-falantes, em mono (Figura 1), somente no
image/svg+xmlProdução musical por comandos de voz em um aplicativo de percepção sonoraRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 14alto-falante da esquerda (Figura 2) ou somente no da direita, e uma letra (C, E ou D) aparecerá na parte inferior do centro da tela, abaixo da palavra “Panning”.Por default, o aplicativo foi programado para reconhecer palavras pronunciadas no idioma português, mais especificamente o português brasileiro (PT-BR). Porém, por alguma razão desconhecida, o código utilizado não está funcionando como o esperado, e quando o usuário acessa o aplicativopor um navegador configurado em outro idioma que não o PT-BR, o protótipo não funciona, já que o aplicativo reconhece apenas palavras pronunciadas no idioma PT-BR. Desta forma, o usuário precisa alterar manualmente para PT-BR a configuração de idioma do navegador a fim de que o modelo funcione corretamente.Além disso, alguns problemas ocorreram nos testes realizados com o reconhecimento de fala, que interpretava de maneira errônea a pronúncia das palavras em inglês ao transcrevê-las para o português. Diante disso, para que certas variáveis do tipo string fossem comparadas e o resultado pretendido fosse possível, foi necessário fazer adaptações ou o aportuguesamento de palavras do idioma inglês, como “chorus”, aportuguesado para “córus” e também adaptado para “khorus”, que são as formas que o reconhecimento de fala do plugin WebGL Speech costuma transcrever a pronúncia de “chorus”. O reconhecimento de fala dificilmente identificava a pronúncia da palavra “flanger”, e ao invés disso, compreendia a palavra “ranger”, e assim foram incluídas essas duas opções para ligar ou desligar este efeito quando o usuário pronúncia o seu nome.Quando o usuário pronúncia alguma das palavras-chave, sendo oscomandos para ativar ou desativar instrumentos ou efeitos, os respectivos parâmetros criados no Fmod são alterados, o que faz com que os efeitos ou instrumentos sejam ativados ou desativados. Ou seja, os parâmetros foram criados dentro do Fmod, mas são manipulados pelo Unity conformeas entradas por comandos de voz captadas pelo algoritmo de reconhecimento de fala do pluginWebGL Speech, que converte as palavras pronunciadas em texto (speech-to-text), e assim essas palavras são comparadas a variáveis do tipo string, e se a comparação for efetivada, ocorre uma determinada açãopreviamente programada. Foi esta sinergia entre Unity, Fmod e WebGL Speech que possibilitouo desenvolvimento do protótipo do aplicativo web.O protótipo deste aplicativo está disponível para testes no itch.io30(um site para hospedagem e distribuição, paga ou gratuita, de games independentes), e pode ser acessado pelo link https://leopassos.itch.io/musicmixer.30itch.io is an open marketplace for independent digital creators with a focus on independent video games. It’s a platform that enables anyone to sell the content they've created. As a seller you’re in charge of how it’s done:you set the price, you run sales, and you design your pages. It’s never necessary to get votes, likes, or follows to
image/svg+xmlLeonardo Porto PASSOSe José FORNARIRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 15Considerações finaisEm algumas sessões de apresentação do Music Mixer, bem como em alguns playtests,31as pessoas manifestaram entusiasmo e divertimento diante do aplicativo. Algumas melhorias precisam ser realizadas para que a proposta de oferecer educação em produção musical e treinamento em percepção sonora seja mais efetiva e se aproxime ainda mais da prática real de mixagem e de produção musical, ainda que dentro de certos limites, já que nem todas as técnicas e ferramentas de mixagem estão disponíveis no aplicativo. A utilização das entradas por reconhecimento de fala traz alguns entraves, como o delayentre a entrada e a ação e o feedbackpelo aplicativo; os problemas por conta do idioma programado no reconhecimento de fala e o configurado no navegador; a certa constância na imprecisão do sistema de reconhecimento de fala, que muitas vezes não consegue captar corretamente a pronúncia do usuário, principalmente quando ele não está utilizando fones de ouvido, e o som emitido pelas caixas de som por vezes acabam atrapalhando reconhecimento de fala do aplicativo; e as limitações das entradas por reconhecimento de fala, sendomenos precisas e dinâmicas que outros tipos de entradas, como as realizadas por mouseou tela sensível ao toque, que permitem maior variedade de comandos e ações pelo usuário.Como possibilidades futuras, pretende-se permitir ao usuário: incluir samplesde áudio capturados em tempo real; alterar o andamento da música; realizar entradas por toque de tela, em uma versão mobile, para aumentar as possibilidades de uso, dentre as quais se incluem a possibilidade de adicionar efeitos de áudio a instrumentos específicos, e não à música como um todo, como o caso atual do protótipo; e permitir o controle de volume e panningde cada instrumento. Com essas implementações, o usuário poderá realizar algo muito próximo, senão idêntico, ao que é a mixagem real das partes individuais que compõem uma peça musical gravada. Porém, toma-se como desafio realizar tais implementações sem abandonar a possibilidade de uso dos comandos de voz, para que assim o aplicativo permaneça acessível a deficientes visuais, além das possibilidades de uso da síntese de fala, com o sistema text-to-speech, também incluso no pluginWebGL Speech.Como desdobramentos futuros de trabalhos derivados deste, com vias ao desenvolvimento de um aplicativo mais sofisticado e com possibilidades mais elaboradas de uso, pretendemos recorrer à utilização da metodologia da pesquisa-ação (TRIPP, 2005), que consiste get your content approved, and you can make changes to how you distribute your work as frequently as you like.” Disponível em: https://itch.io/.31Alguns dos playtestsforam gravados e estão disponíveis em: https://youtu.be/HrxLHzuhg3w.
image/svg+xmlProdução musical por comandos de voz em um aplicativo de percepção sonoraRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 16em: 1) desenvolvimento, 2) testes, 3) aprimoramentos, 4) coleta de resultados e 5) reinício do processo a partir da etapa 1. Para as etapas 2 e 4, cogita-se a coleta de dados por meio de playtestsseguidos de preenchimento de relatório on-linepor parte dos usuários, com a devida autorização prévia do Comitê de Ética em Pesquisa (CEP) da Universidade Estadual de Campinas (Unicamp).REFERÊNCIASARAÚJO, D. V. G. Uma breve história da mixagem: Origem, técnicas, percepção e futuros avanços. Campinas, 2015. Dissertação (Mestrado em Música) Instituto de Artes, Universidade Estadual de Campinas, São Paulo, 2015. Disponível em: https://revistas.nics.unicamp.br/revistas/ojs/index.php/nr/article/view/190. Acesso em: 06 maio 2021.BENWARD, B.; SAKER,M. Music in theory and practice: v. 1. 8. ed. New York: McGraw-Hill, 2009.BERNARDES, V. A percepção musical sob a ótica da linguagem. Revista da Abem, v. 9, n. 6, p. 73-82, set. 2001. Disponível em: www.abemeducacaomusical.com.br/revistas/revistaabem/index.php/revistaabem/article/view/444. Acesso em: 05 nov. 2021.BURGESS, R. J. The art of music production: The theory and practice. 4. ed. New York: Oxford University Press, 2013.BURGESS, R. J. The history of music production. New York: Oxford University Press, 2014.CASE, A. U. Mix Smart: Pro audio tips for your multitrack mix. Oxford: Focal Press, 2011.FORNARI, J. Percepção, cognição e afeto musical. In: KELLER, D. (org.). Criação musical e tecnologias: Teoria e prática interdisciplinar. Goiânia: Anppom, 2010. Disponível em: www.anppom.com.br/ebooks/index.php/ pmb/catalog/book/2. Acesso em: 21 jun. 2021.GIBSON, D. The art of mixing: A visual guide to recording, engineering, and production. 2. ed. Boston: Thomson Course Technology, 2005.HOUAISS, A [Instituto]. Houaiss Eletrônico. Versão 3.0. Rio de Janeiro: Objetiva, 2009.HURON, D. Affect induction through musical sounds: an ethological perspective. Phil. Trans. R. Soc. B, v. 370, n. 1664, mar. 2015. Disponível em: https://royalsocietypublishing.org/doi/full/10.1098/rstb.2014.0098. Acesso em: 10 fev. 2021.HURON, D. Understanding Music-related emotion: Leslons from Ethology. In: PROC. INTERN. CONF. ON MUSIC PERCEPTION ANDCOGNITION, 12.; TRIENNIAL CONF. OF THE EUROPEAN SOC. FOR THE COGNITIVE SCIENCES OF MUSIC, 8., 2012, Thessaloniki. Anais[…]. Thessaloniki, Greece, 2012.
image/svg+xmlLeonardo Porto PASSOSe José FORNARIRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 17LERDAHL, F.; JACKENDOFF, R. S. A generative theory of tonal music. 3. ed. London: MIT Press, 1996.MATUNOBU, Y. Desenvolvimento de software educativo para treinamento em percepção musical. 2010. Monografia (Trabalho de Conclusão de Curso em Ciência da Computação) Fundação de Ensino Eurípides Soares da Rocha, Centro Universitário Eurípides de Marília, São Paulo, 2010.MELO, F.; PALOMBINI, C. O objeto sonoro de Pierre Schaeffer: Duas abordagens. In: XVI ANPPOM, 16., 2006, Brasília. Anais[…]. Brasília, 2006. Disponível em: https://antigo.anppom. com.br/anais/anaiscongresso_anppom_2006/CDROM/COM/07_Com_TeoComp/sessao04/07COM_TeoComp_0404-173.pdf. Acesso em: 24 maio 2021.OLSSON, E. Aesthetic signal processing in music production: Is the intended emotional response achieved? Lulea. 2015. Monografia (Trabalho de Conclusão de Curso em Engenharia de Áudio) Department of Arts, Communication and Education, Lulea University of Technology, 2015. Disponível em: https://www.diva-portal.org/smash/record.jsf?pid=diva2%3A1018575&dswid=-3321. Acesso em: 23 fev. 2021.RECORDING ACADEMY. Producers & Engineers Wing, Technical Guidelines. Producer Grammy Award Eligibility Crediting Definitions, March 01, 2019. Disponível em: www.grammy. com/sites/com/files/producer_definitions_final_03_01_2019.pdf. Acesso em: 17 jun. 2021.RONAN, D.; REISS, J. D.; GUNES, H. An empirical approach to the relationship between emotion and music production quality. ArXiv, mar. 2018.ROVITHIS, E.; MNIESTRIS, A.; FLOROS, A. Educational audio gamedesign: sonification of the curriculum through a role-playing scenario in the audio game‘Kronos’. In: AM 2014, 9., 2014, New York. Anais […]. New York, NY, USA, 2014.SCHAFER, R. M. A afinação do mundo. São Paulo: Ed. Unesp, 2001.SCHAFER, R. M. O ouvido pensante. São Paulo: Fundação Editora da Unesp, 1991.TENNEY, J.; POLANSKY, L. Temporal Gestalt perception in music. Journal of Music Theory, Autumn, v. 24, n. 2, p. 205-241, 1980. Disponível em: https://www.jstor.org/stable/843503. Acesso em: 19 fev. 2021.TRIPP, D. Pesquisa-ação: Uma introdução metodológica. Educação e Pesquisa, São Paulo, v. 31, n. 3, p. 443-466, set./dez. 2005. Disponível em: http://educa.fcc.org.br/pdf/ep/v31n03/v31n03a09.pdf. Acesso em: 21 set. 2021.TURINO, T. Music as social life: The politics of participation. Chicago: The University of Chicago Press, 2008.
image/svg+xmlProdução musical por comandos de voz em um aplicativo de percepção sonoraRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 18SOBRE OS AUTORESLeonardo Porto PASSOSUniversidade Estadual de Campinas (UNICAMP), Campinas SPBrasil. Mestrando do Programa de Pós-Graduação em Música (PPGM) do Instituto de Artes (IA). José FORNARIUniversidade Estadual de Campinas (UNICAMP), Campinas SP Brasil. Pesquisador de carreira Pq do CPG/DM/IA. Doutorado em Engenharia Elétrica (UNICAMP).Processamento e edição: Editora Ibero-Americana de Educação.Correção, formatação, normalização e tradução.
image/svg+xmlRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 1MUSIC PRODUCTION BY VOICE COMMANDS IN A SOUND PERCEPTION APPLICATIONPRODUÇÃO MUSICAL POR COMANDOS DE VOZ EM UM APLICATIVO DE PERCEPÇÃO SONORAPRODUCCIÓN MUSICAL POR COMANDOS DE VOZ EN UNA APLICACIÓN DE PERCEPCIÓN DE SONIDOLeonardo Porto PASSOSState University of Campinas(UNICAMP)e-mail: leoportopassos@gmail.comJosé FORNARIState University of Campinas(UNICAMP)e-mail: fornari@unicamp.brHow to refer to this articlePASSOS, L. P. FORNARI, J. Music production by voice commands in a sound perception application. Revista Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154. DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414Submitted: 10/03/2022Revisions required: 05/05/2022Approved: 01/07/2022Published: 01/12/2022
image/svg+xmlMusic production by voice commands in a sound perception applicationRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 2ABSTRACT: In this article, we present the prototype of a web application accessible to the visually impaired for music production education and training in sound perception. Through voice commands, the user can mix the music being played by adding and removing musical instruments and audio effects and changing panning. Mixing is of fundamental importance in the musical recording process, but many listeners and musicians are unaware ofthe tools and techniques used in this stage, not being able to identify such procedures, which give uniqueness and special aesthetic characteristics to a recording, which motivated the development of the proposed app.KEYWORDS: Music production. Sound perception. Application development.RESUMO: Neste artigo, apresentamos o protótipo de um aplicativo web acessível a deficientes visuais para educação em produção musical e treinamento em percepção sonora, com o qual o usuário pode, por meio de entradas por comandos de voz, mixar a música em execução, ao adicionar e remover instrumentos musicais e efeitos de áudio e alterar o panning. A mixagem é de fundamental importância no processo de gravação musical, mas muitos ouvintes e músicos desconhecem as ferramentas e técnicas utilizadas nessa etapa, nãoconseguindoidentificar tais procedimentos, que conferem singularidade e características estéticas especiais a uma gravação, o que motivou o desenvolvimento do app proposto.PALAVRAS-CHAVE: Produção musical. Percepção sonora. Desenvolvimento de aplicativo.RESUMEN: En este artículo presentamos el prototipo de una aplicación web accesible para personas con discapacidad visual para la educación en producción musical y la formación en percepción del sonido, con la cual el usuario puede, a través de comandos de voz, mezclar la música en ejecución, agregando y quitando instrumentos musicales. y efectos de audio y cambiar la panorámica. La mezcla es de fundamental importancia en el proceso de grabación musical, pero muchos oyentes y músicos desconocen las herramientas y técnicas que se emplean en esta etapa, no pudiendo identificar dichos procedimientos, los cuales le dan singularidad y características estéticas especiales a una grabación, lo que motivó el desarrollo de la aplicación propuesta.PALABRASCLAVE:Producción musical. Percepción del sonido. Desarrollo de aplicaciones.
image/svg+xmlLeonardo Porto PASSOSe José FORNARIRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 3IntroductionIt is very common for a listener, especially a non-musician, to have a special predilection for a certain musical composition without knowing exactly why this affection, considering there is something in that music that evokes his emotions but is beyond his comprehension. And when the same music is appreciated in a live performance, without the use of the same studio resources, that affective relationship is often broken, and the feeling is not the same, even though the performance was very faithful to the musical recording cherished by that person. What may occur in these cases is that the listener has some appreciation for the aesthetics imbued by the music producer to that recording (not counting the participation of the composer and the performer, since our focus here is the musical production, more precisely, the mixing), giving it new contours (beyond those offered by composers and performers), that areoften difficult to be reproduced during the performance, for several reasons, ranging from differences in the acoustic treatment of the recording studio environment about the performance venue to the equipment available for sound collection, recording, processing, and generation.In the words of David Huron (2015, p. 1, our translation), Music can evoke a wide range of feeling states, from the trivial to the sublime.",1this occurs because of four types of emotional generators: 1) association: [...] certain sounds or sound patterns can be associated with past emotional experiences.”;22) empathic: "[...] the listener recognizes acoustic features associated with particular emotions.”;33) cognitive: Conscious thoughts may lead the listener to a particular experience.”;4and 4) signaling: [...] a signal that changes the observer's behavior.”5(HURON, 2012, p. 479, our translation).In addition to the roles of the composer and performer in evoking feelings in the listener, there is also the music producer's participation in the mixing process, as Richard James Burgess (2013, p. 73) states: Mixing extends all the musical techniques that precede it, strengthening the perception of the music by reinforcing structure, orchestration, and emotional affect for the intended audience.”.6Mixing can intensify the evocation of emotion, or contribute to it, through the proper use of equalizer, filters, distortion, chorus, dynamics, compressor, reverb, echo, pitch shifting, etc. (CASE, 2011), and concerns the following process:1Music is capable of evoking a wide range of feeling states from the pedestrian to the sublime.”2[]certain sounds or sound patterns may become associated with past emotional experiences.”3[]a listener recognizes acoustic features associated with particular emotions.”4Conscious thoughts can lead a listener to a particular experience.”5[]a signal is to change the behavior of the observer.”6Mixing extends all the musical techniques that precede it, strengthening the perception of the song by reinforcing the structure, orchestration, and emotional affect for the intended audience.”
image/svg+xmlMusic production by voice commands in a sound perception applicationRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 4[...] refers to the original mix of a track when the instrumentation and vocals are balanced against each other, and any necessary effects or treatments are added. [...] A mix should optimize the music, vocals, performances, arrangement, and engineering. It should sound good on a wide range of high-end and low-end systems and at any volume (BURGESS, 2013, p. 102, our translation).Music production -which includes a sound recording, arranging, orchestration, effects, mixing, mastering, etc., as we will see in more detail below -is fundamental for it to be possible to obtain quality in the capture of instruments and voices and for everything to be heard with clarity and definition, according to various aesthetic concepts, which may even favor certain imperfectionsand low-fidelity7(low-fidelityou lo-fi). (lo-fi) sound. There is great concern with the clarity of musical textures8and the separation of the parts in a process that will make the recording procedures imperceptible, or at least reduce the methods of music production (capturing and recording, adding effects, mixing, mastering) so that the recording is perceived as a faithful or realrepresentation of the musical performance (TURINO, 2008).However, as Burgess (2013, p. 2, our translation) states, the processes and techniques of music production, as well as its outcomes, are unknown to many people, even musicians: [...]I think music production is a poorly understood art, even in the industry.9[musical]. And it is to offer the experience of performing a basic musical mix that the prototype of a web10application for training in music perception was developed, and thus useful for music production education since it allows the user to understand certain resources and techniques used by music producers in mixing and creative conceptions in aesthetic terms.To this end, we will explain below what music production is, the definition of music perception, and the reasons that led us to choose the development of an application with inputs by voice commands.7Available at: https://ora.ox.ac.uk/objects/uuid:cc84039c-3d30-484e-84b4-8535ba4a54f8.Access: 10 Jan. 2022.8The term texture refers to the way melodic, rhythmic, and harmonic materials are woven together in a composition” (The term texture refers to the way the melodic, rhythmic, and harmonic materials are woven together in a composition) (BENWARD; SAKER, 2009, p. 145, our translation).9[]I felt that the art of music production was poorly understood, even within the industry”.10Available at: https://edu.gcfglobal.org/pt/informatica-basica/o-que-e-um-aplicativo-web/1/.
image/svg+xmlLeonardo Porto PASSOSe José FORNARIRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 5Music ProductionThe history of music production began with the emergence of recording, reproduction, and media, attributed to Thomas Alva Edison with the invention of his Phonograph in 1877, a device for recording and reproducing sounds from a cylinder, which was configured as a conceptual and aesthetic milestone of music production by enabling, in fact, the solidification, so to speak, of the intangibility of the sound material that makes up music, allowing all forms of sound processing and analysis. This new apparatus and the consequent development of new technologies for sound recording and reproduction -brought new opportunities for musical registration, previously possible only by the musical notation (with its limitations, as the expressiveness of performance is not registered by notation), and for musical composition -the need arose for techniques capable of combining composition, arrangement, orchestration, interpretation, improvisations, timbres, and performance into an immutable sonic whole (BURGESS, 2014, p. 1), or an immutable sound object11. In Burgess' definition:Music production is the technological extension of composition and orchestration. It captures the fullness of composition, its orchestration, and the performative intentions of the composer(s). In its precision and inherent ability to capture cultural, individual, ambient, timbral, and interpretive subtleties along with intonation, tempo, intention, and meaning (except when seeking the amorphous), it is superior to written music and oral traditions. Music-making is representational and an art in itself (BURGESS, 2013, p. 5, our translation).According to the Grammy Award Eligible Credit Definitions (RECORDING ACADEMY, 2019), the music producer is the person responsible for creative, technical, and aesthetic decisions that meet the goals of the artist and the copyright owner of the sound recording in the creation of musical content, often being considered, when this is no longer the case, another member of the musical group, with the same or even greater importance as the musicians. The producer may execute, direct performances, choose final takes or versions and oversee the selection of music, musicians, singers, arrangers, studios, etc. They are also responsible for performing or supervising the mixing, mastering12and overall quality control of a musical recording.11A term created by Pierre Schaeffer to refer to an audio excerpt with a unit of sound information whose imagery reference is latent or non-existent (MELO; PALOMBINI, 2006).12Mastering is the final stage of optimizing the recorded material as it is transferred to the format(s) that will be used in the manufacturing process” (Mastering is the final stage of optimization of the recorded material while transferring it to the format(s) that will beused in the manufacturing process) (BURGESS, 2014, p. 48, our translation).
image/svg+xmlMusic production by voice commands in a sound perception applicationRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 6Mixing can be defined as using, in a creative and sometimes intuitive way, techniques and tools to mix, shape and equalize the sound of one or more audio channels with content from different sound sources to achieve a specific aesthetic goal (ARAÚJO, 2015). The use of mixing creatively, as well as its technical aspects, can be evidenced in a clearer and more detailed way:Mixing music is related to processing recorded musical performances. The goal of this process can be to make the recording sound natural and realistic as if you were in the room when the musicians performed. It can also be used to dramatically alter the sonic character of the recording, creating a very different soundscape that may not even be possible to achieve in real life. To do this, the mixing engineer has a wide variety of analog and digital tools. These tools are called signal or effects processors. [...] Mixing engineers can therefore use signal processing for other than purely technical reasons. Signal processing can be used in aesthetic and creative ways to make things sound bigger, more passionate, and more emotional. Even though the original signal can be heavily skewed or distortedin the process, making it sound unnatural or with inferior audio quality, it is often considered desirable. [...] When mixing music, mixing engineers sometimes use signal processing to elicit a specific emotional impact on the listener. For example, a vocal track may be mixed with much reverb and delay to induce a dreamlike or melancholic emotion (OLSSON, 2015, p. 2, our translation).According to Burgess (2013), music production is preceded by the pre-production stage and followed by the post-production stage:a)Pre-production: preparatory decision-making phase for selecting, organizing, and refining musical material;b)Production: prepare (choose and position) microphones, instruments, headphones, effects (delay, reverb, etc.), equalizers, and compressors (pre-mixing) and perform the recording sessions, all based on aesthetic choices initiated in the previous stage;c)Post-production: stage of the mix, which consists of balancing and optimizing the components of the production for maximum musical impact and perceptual clarity of the parts, using resources such as equalization, compression, panning13, compression, limiting, expansion, gating, reverberation, delays and other effects to optimize the sounds, increase their impact and ensure that they occupy their own space in the audio spectrum. And finally, mastering is the preparation of a single media or digital file with the union of all other recordings that make up a musical piece (music) or a set of them (album).13Panning left or right positioning of sounds between speakers ” (Panning, the left/right placement of sounds between the speakers) (GIBSON, 2005, p. 22, our translation).
image/svg+xmlLeonardo Porto PASSOSe José FORNARIRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 7Some of these steps are commonly performed by different professionals specialized in specific functions. But "With the ubiquity of digital audio workstations (DAWs), most producers, since the turn of the century, have been able to record and manipulate audio on the DAW of their choice. This further blurs the distinction between audio engineering and production.”14(BURGESS, 2013, p. 29, our translation).It is in the post-production phase that the most appropriate steps for this study are concentrated, especially mixing:In the post-production stage, the mixing engineer combines the recordings through mixing and editing to obtain a final mix. Predominantly, the more skilled the mixing engineer, the better the final mix will be in terms of production quality. Audio mixing involvesthe application of signal processing techniques to each recorded audio track, whereby the engineer manipulates the dynamic (dynamic range balancing and compression), spatial (stereo or surround panning and reverb), and spectral (equalization) characteristics of the source material. Once the final mix has been created, it is sent to a mastering studio, where additional processing is applied so that the musical recording can be distributed for listening in a home or club setting (RONAN; REISS; GUNES, 2018, p. 1, our translation).Regardless of the specific role performed by the music production professional, keen musical perception is prevalent in performing this type of work.Music PerceptionMixing is a fundamentally important step in the outcome of recording a piece of music, as David Gibson (2005, p. 17) argues: Mixing may be only a small part of all that is required to create a great overall recording, yet it is one of the most powerful aspects because the mix can be used to hide weaknesses in other areas.However, the same author points out that [...] most people do not differentiate between the individual parts that make up a piece of recorded music. Instead, they listen to an overall 'sound' and rarely separate the mix from the music.(GIBSON, 2005, p. 1).To achieve a satisfactory mix, one must first focus on music perception, an innate human ability to [...] perceive aurally, reflect on, and act creatively upon the music.(BERNARDES, 2001, p. 75), developed throughout our evolution as a species from soundperception, a defense and protection mechanism to keep us always attentive to events in the surroundings (that is why we can close our eyes but not our ears), and that can also become more refined through training.14With the ubiquity of digital audio workstations (DAWs), most producers, since the turn of the century, have been capable of recording and manipulating audio in their workstation of choice. This further blurs the distinction between audio engineering and production.”
image/svg+xmlMusic production by voice commands in a sound perception applicationRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 8To better understand what musical perception is all about, we turn to a more detailed definition:Music perception is a sound perception in the context of music, that is, the ability to perceive sound waves as part of a musical language. Music perception primarily involves sound perception, the ability to identify physical attributes of sound, such as volume, timbre, and pitch. In addition to sound perception, music perception also involves musical elements such as melody (melodic perception), rhythm (rhythmic perception), and harmony (harmonic perception) (MATUNOBU, 2010, p. 22, our translation).Sound perception occurs, for example, when we are amid a complex soundscape15consisting of many sounds of various origins, we are immersed in a large amount of sound information whose source and nature we often do not know. Yet we can perceive specific nuances of these sounds -even if we cannot understand them in depth -such as intensity, pitch, timbre, reverberation, etc. These are the perceptual aspects of sound. In music, one of the fundamental elements of sound perception concerns the mental processing, by hearing, of elementary aspects of sound that describe psychoacoustic16characteristics of the material heard" (FORNARI, 2010, p. 12, our translation).When we are immersed in a disturbed soundscape and perceive sound information all around us coming from the most diverse sources,Our ears receive, translate, and send all this sound information to the brain via the auditory nerve through electrical signals. Althoughthis perceptual information is entangled in the two receiving channels, which are the ears, we are able, to some extent, to voluntarily focus our attention on a single conversation, as well as move our attention from one sound source to another according to our interest, and disregard the rest. If someone calls our name in this tumultuous sound environment, especially if we notice that it is a familiar voice, our attention is immediately and involuntarily shifted to this person (FORNARI, 2010, p. 21, our translation).15A concept popularized by R. Murray Schafer (2001, p. 24, our translation): A soundscape consists of heard events rather than seen objects,and can be divided into fundamental sounds, the notes that identify the scale or tonality of a song or the sounds created by geography and climate (water, wind, birds, insects, animals); signals, sounds highlighted and consciously heard as acoustic warning resources (bells, whistles, horns, sirens); and sound marks, sounds unique to a community that possesses certain qualities that make them especially meaningful or noticeable to the people of that place (melting glaciers, erupting volcanoes, boiling sulfur fields) (SCHAFER, 2001).16Psychoacoustic features occur at sufficiently small time intervals before the formation of a memorization model of sound information (thus, there is no distinction between sound and musical psychoacoustic aspects). Such aspects are associated with a time interval known in psychoacoustics as the auditory persistence interval, considered to be around 0.1s in duration. Distinct sound events separated by time intervals shorter than the auditory persistence interval are perceived as a single sound event(FORNARI, 2010, p. 10, our translation).
image/svg+xmlLeonardo Porto PASSOSe José FORNARIRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 9According to Gestalt theory (LERDAHL; JACKENDOFF, 1996; TENNEY; POLANSKY, 1980), there are four basic principles of sound object identification in music (FORNARI, 2010, p. 26-27, our translation):1.Structuring: understanding a set of different events as a single structure. E.g., instruments, melody, harmony, rhythm, etc.;2.Segregation: noticing an event that stands out about the others. E.g., the melody of a solo instrument;3.Pregnancy: to identify the simplest and most regular structures first and clearly. E.g., simple rhythmic patterns (as opposed to polyrhythmic ones);4.Constancy: to perceive continuity in the variations between consecutive events and understand them as belonging to the same context. E.g., a car passing by with music playing.With this enhanced capacity for sound perception, R. Murray Schafer (2001, p. 25) states that: What the soundscape analyst needs to do, in the first place, is to discover its significant aspects, those sounds that are important because of their individuality, quantity, or preponderance.And this discovery must also be performed by the music producer when mixing the parts that make up a recorded piece of music.Schafer argues that one way to train in sound perception is what he metaphorically calls ear cleaning:You start by listening to sounds. The world is full of sounds that can hear everywhere. The most obvious kinds of sounds are also the least heard, which is why the ear-cleaning operation focuses on them. Some students have cleaned their ears so much to hear the sounds around them that they can later analyze them. When theanalysis process is accurate, it is possible to reconstruct or imitate a sound that is heard synthetically. This is where ear-cleaning gives way to auditory training (SCHAFER, 1991, p. 103-104, our translation).Given the above, one can notice the importance of sound perception in music since the musician is also immersed in a sound landscape that, in this case, refers to musical performance, being even more significant in terms of communication between agents in the case of group performance. Thus, a webapplication was developed in which the user can perform sound perception training and learn some tools used by music producers, as presented in the next section.
image/svg+xmlMusic production by voice commands in a sound perception applicationRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 10A computational model of music perceptionThe best way to learn to listen is by listening,17as Schafer argues in his book The Thinking Ear, 1991. Therefore, a web application whose inputs and feedback are given using sounds presents a high potential for the training of sound perception, in the same way as audio games, which present some advantages in music education due to their emphasis on sound resources (music, sound effects, and voices) and the decrease or even absence of visual resources, as pointed out by Rovithis, Mniestris, and Floros:In audio games [AGs], players must focuson auditory stimuli to understand and perform game tasks. Reducing or excluding visual information can enhance the acquisition of skills such as memory and concentration. Moreover, GAs can introduce everyone, even non-musicians, to musical concepts and principles, serving as platforms on which players experiment and realize their ideas. Thus, GA design can play an innovative role in research and education, especially in curricula related to music and sound studies (ROVITHIS; MNIESTRIS; FLOROS, 2014, p. 1, our translation).Given these possibilities, we present a simple prototype of a web application for training in sound perception and music production, with which the user will be able, through input by voice commands (making the app accessible to the visually impaired), to mix the music being played, by:Adding and removing instruments, named as a bass drum, box, tom, cymbals, bass, synth, arpeggio, melody, and effects;Switching audio effects on and off, named as chorus, compressor, delay, distortion,flanger, high-pass filter, low-pass filter, reverb, and tremolo;Change panning to center (mono), left or right.The prototype was developed in the engine (software optimized for creating games) Unity18. Its choice was due to the possibility of integration with the Fmod19middleware20which allowed the activation or deactivation of musical instruments and sound effects according to the user's inputs, as well as changing the panning of the music.o keep the user of the prototype app focused on the sounds without possible dispersion because of too many visuals, we chose to use input by voice commands, which was made 17Or even listen by listening, since to listen is to listen attentively, consciously, according to Houaiss (2009, entry listen): 1) be aware of what you are hearing; 2) be attentive to listen, pay attention to; 3) make an effort to listen clearly.18Unity's official website: https://unity.com/pt.Access: 10 Jan. 2022.19Official Fmod website: https://www.fmod.com/.Access: 10 Jan. 2022.20Middleware is computer software that provides services to application software beyond those available from the operating system.
image/svg+xmlLeonardo Porto PASSOSe José FORNARIRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 11possible by the WebGL Speech,21plugin, written in the C# programming language (the same used in Unity), which allows speech recognition by web browsers and converts the user's speech into text (speech-to-text), more specifically into a string variable (which stores words), that can be compared or manipulated to transform the user's speech commands into actions in the application. Thus, the user can, for example, pronounce the name of a musical instrument or a sound effect, as shown in Figure 1, to turn it off if it is on or on if it is off, which was possible with the creation of a binaryvariable of the bool type (which stores only two possible values (true or false) to know if the instrument in question is on or off, and thus perform the action commanded by the user. When an instrument or audio effect is on, its name appears green on thescreen, and when it is off, the name turns red.Figure 1 -The prototype's user interface, with the instrument names on the left, audio effects on the right, and the music playback indicator (speaker icon) and panning position in the center.Source: Prepared by the authorsThe same premise is used for the user to start or stop playing the music track, which is indicated by a speaker icon in the center of the screen, which turns red when the music is not playing (Figure 1) and turns green whenthe music is playing (Figure 2). To play the music, the user must say play music; to stop it, the user must pronounce stop the music”.21Available at: https://assetstore.unity.com/packages/tools/audio/webgl-speech-105831.Access: 10 Jan. 2022.Drum kickSnare drumToneCymbalsBass guitarSynthesizerArpeggioMelodyEffectsChorusCompressorDelayDistortionFlangerHigh-pass filterLow-pass filterReverberationTremolo“Play music’’Panning‘’ left’’, ‘’center’’, ‘’right’’
image/svg+xmlMusic production by voice commands in a sound perception applicationRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 12Figure 2 -The green speaker icon in the center indicates that music is playing, and the color of the instrument names and audio effects indicate whether they are active (green) or inactive (red).Source: Prepared by the authorsTo change the panning, the user can say center, left,or rightso that the music will play, respectively, in both speakers, in mono (Figure 1), only in the left speaker (Figure 2) or only in the right speaker, and a letter (C, E or D) will appear at the bottom of the center of the screen, below the word Panning.Bydefault, the application was programmed to recognize words pronounced in Portuguese, more specifically, Brazilian Portuguese (PT-BR). However, for some unknown reason, the code used is not working as expected. For example, when the user accesses the application through a browser configured in a language other than PT-BR, the prototype does not work since the application only recognizes words pronounced in the PT-BR language. Thus, the user needs to manually change the browser's language setting to PT-BR for the model to work correctly.Furthermore, some problems occurred in the tests performed with speech recognition, which needed to be corrected for the pronunciation of English words when transcribing them into Portuguese. Therefore, for certain string variables to be compared and the intended result to be possible, it was necessary to make adaptations or the spelling of English words, such as chorus, spelled as corus”,and also adapted to chorus, which are the forms that the WebGL Speech plugin's speech recognition usually transcribes the pronunciation of chorus. The speech recognition could hardly identify the pronunciation of the word flangerand instead understood the word creak, so these two options were included to turn this effect on or off when the user pronounces its name.Drum kickSnare drumToneCymbalsBass guitarSynthesizerArpeggioMelodyEffectsChorusCompressorDelayDistortionFlangerHigh-pass filterLow-pass filterReverberationTremoloPanning‘’ left ’’, ‘’center’’, ‘’right’’“Stop music’’
image/svg+xmlLeonardo Porto PASSOSe José FORNARIRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 13When the user pronounces any of the keywords, being the commands to turn instruments or effects on or off, the respective parameters created in Fmod are changed, which causes the effects or instruments to be turned on or off. In other words, the parameters were created within Fmod but are manipulated by Unity according to the voice command inputs captured by the speech recognition algorithm of the WebGL Speech plugin, which converts the spoken words into text (speech-to-text). So these words are compared to variables of type string, and if the comparison is effective, a certain previously programmed action occurs. This synergy between Unity, Fmod, and WebGL Speech enabled the development of the web application prototype.The prototype of this application is available for testing on itch.io22(a site for hosting and distribution, paid or free, of independent games) and can be accessed through the link https://leopassos.itch.io/musicmixer.Final considerationsIn some presentation sessions of Music Mixer, as well as in some playtests,23people expressed enthusiasm and fun with the application. Some improvements need to be made so that the proposal of offering music production education and sound perception training is more effective and comes even closer to real mixing and music production practice, even if within certain limits, since not all mixing techniques and tools are available in the application. The use of speech recognition inputs brings some drawbacks, such as the delay between the input and the action and feedback by the application; the problems due to the language program in the speech recognition and the one set in the browser; the inaccuracy of the speech recognition system, which often fails to correctly capture the user's pronunciation, especially when the user is not using headphones, and the sound emitted by the speakers sometimes ends up disturbing the speech recognition of the application; and the limitations of speech inputs, being less precise and dynamic than other types of information, such as those performed by mouse or touch screen, which allow a greater variety of commands and actions by the user.As future possibilities, we intend to allow the user to: include audio samples captured in real time; change the tempo of the music; make touchscreen inputs in a mobile version to 22itch.io is an open marketplace for independent digital creators with a focus on independent video games. It’s a platform that enables anyone to sell the content they've created. As a seller you’re in charge of how it’s done: you set the price, you run sales, and you design your pages. It’s never necessary to get votes, likes, or follows to get your content approved, and you can make changes to how you distribute your work as frequently as you like.” Available at: https://itch.io/.23Some of the playtests were recorded and are available at: https://youtu.be/HrxLHzuhg3w.Access: 10 Jna. 2022.
image/svg+xmlMusic production by voice commands in a sound perception applicationRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 14increase the possibilities of use, including the option of adding audio effects to specific instruments, and not to the music as a whole, as the current case of the prototype; and allow volume control and panning of each instrument. With these implementations, the user can accomplish something very close, if not identical, to the mixing of the individual parts that make up a recorded piece of music. However, it is a challenge to carry out these implementations without abandoning the possibility of using voice commands so that the application remains accessible to the visually impaired, as well as the possibilities of using speech synthesis, with the text-to-speech system included in the WebGL Speech plugin.As future developments of works derived from this one, aiming at the development of a more sophisticated application and with more elaborate possibilities of use, we intend to use the methodology of action research (TRIPP, 2005), which consists of 1) development, 2) tests, 3) improvements, 4) collection of results and 5) restarting the process from step 1. Stages 2 and 4 it is considered to collect data through playtests followed by the users filling out an online report, with due authorization from the Research Ethics Committee (CEP) of the State University of Campinas (Unicamp).REFERENCESARAÚJO, D. V. G. Uma breve história da mixagem: Origem, técnicas, percepção e futuros avanços. Campinas, 2015. Dissertação (Mestrado em Música) Instituto de Artes, Universidade Estadual de Campinas, São Paulo, 2015. Available at: https://revistas.nics.unicamp.br/revistas/ojs/index.php/nr/article/view/190. Access: 06 May2021.BENWARD, B.; SAKER, M. Music in theory and practice: v. 1. 8. ed. New York: McGraw-Hill, 2009.BERNARDES, V. A percepção musical sob a ótica da linguagem. Revista da Abem, v. 9, n. 6, p. 73-82, set. 2001. Available at: www.abemeducacaomusical.com.br/revistas/revistaabem/index.php/revistaabem/article/view/444. Access: 05 Nov. 2021.BURGESS, R. J. The art of music production: The theory and practice. 4. ed. New York: Oxford University Press, 2013.BURGESS, R. J. The history of music production. New York: Oxford University Press, 2014.CASE, A. U. Mix Smart: Pro audio tips for your multitrack mix. Oxford: Focal Press, 2011.
image/svg+xmlLeonardo Porto PASSOSe José FORNARIRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 15FORNARI, J. Percepção, cognição e afeto musical. In: KELLER, D. (org.). Criação musical e tecnologias: Teoria e prática interdisciplinar. Goiânia: Anppom, 2010. Available at: www.anppom.com.br/ebooks/index.php/ pmb/catalog/book/2. Access: 21 June2021.GIBSON, D. The art of mixing: A visual guide to recording, engineering, and production. 2. ed. Boston: Thomson Course Technology, 2005.HOUAISS, A [Instituto]. Houaiss Eletrônico. Versão 3.0. Rio de Janeiro: Objetiva, 2009.HURON, D. Affect induction through musical sounds: an ethological perspective. Phil. Trans. R. Soc. B, v. 370, n. 1664, mar. 2015. Available at: https://royalsocietypublishing.org/doi/full/10.1098/rstb.2014.0098. Access: 10 Feb. 2021.HURON, D. Understanding Music-related emotion: Leslons from Ethology. In: PROC. INTERN. CONF. ON MUSIC PERCEPTION AND COGNITION, 12.; TRIENNIAL CONF. OF THE EUROPEAN SOC. FOR THE COGNITIVE SCIENCES OF MUSIC, 8., 2012, Thessaloniki. Anais[…]. Thessaloniki,Greece, 2012.LERDAHL, F.; JACKENDOFF, R. S. A generative theory of tonal music. 3. ed. London: MIT Press, 1996.MATUNOBU, Y. Desenvolvimento de software educativo para treinamento em percepção musical. 2010. Monografia (Trabalho de Conclusão de Curso em Ciência da Computação) Fundação de Ensino Eurípides Soares da Rocha, Centro Universitário Eurípides de Marília, São Paulo, 2010.MELO, F.; PALOMBINI, C. O objeto sonoro de Pierre Schaeffer: Duas abordagens. In: XVI ANPPOM, 16., 2006, Brasília. Anais[…]. Brasília, 2006. Available at: https://antigo.anppom. com.br/anais/anaiscongresso_anppom_2006/CDROM/COM/07_Com_TeoComp/sessao04/07COM_TeoComp_0404-173.pdf. Access: 24 May2021.OLSSON, E. Aesthetic signal processing in music production: Is the intended emotional response achieved? Lulea. 2015. Monografia (Trabalho de Conclusão de Curso em Engenharia de Áudio) Department of Arts, Communication and Education, Lulea University of Technology, 2015. Available at: https://www.diva-portal.org/smash/record.jsf?pid=diva2%3A1018575&dswid=-3321. Access: 23 Feb. 2021.RECORDING ACADEMY. Producers & Engineers Wing, Technical Guidelines. Producer Grammy Award Eligibility Crediting Definitions, March 01, 2019. Available at: www.grammy. com/sites/com/files/producer_definitions_final_03_01_2019.pdf. Access: 17 June. 2021.RONAN, D.; REISS, J. D.; GUNES, H. An empirical approach to the relationship between emotion and music production quality. ArXiv, mar. 2018.ROVITHIS, E.; MNIESTRIS, A.; FLOROS, A. Educational audio gamedesign: sonification of the curriculum through a role-playing scenario in the audio game‘Kronos’. In: AM 2014, 9., 2014, New York. Anais […]. New York, NY, USA, 2014.SCHAFER, R. M. A afinação do mundo. São Paulo: Ed. Unesp, 2001.
image/svg+xmlMusic production by voice commands in a sound perception applicationRev. Hipótese, Bauru, v. 8, esp. 1, e022020, 2022. e-ISSN: 2446-7154DOI:https://doi.org/10.47519/eiaerh.v8.2022.ID414| 16SCHAFER, R. M. O ouvido pensante. São Paulo: Fundação Editora da Unesp, 1991.TENNEY, J.; POLANSKY, L. Temporal Gestalt perception in music. Journal of Music Theory, Autumn, v. 24, n. 2, p. 205-241, 1980. Available at: https://www.jstor.org/stable/843503. Access: 19 Feb. 2021.TRIPP, D. Pesquisa-ação: Uma introdução metodológica. Educação e Pesquisa, São Paulo, v. 31, n. 3, p. 443-466, set./dez. 2005. Available at: http://educa.fcc.org.br/pdf/ep/v31n03/v31n03a09.pdf. Access: 21 Sept. 2021.TURINO, T. Music as social life: The politics of participation. Chicago: The University of Chicago Press, 2008.ABOUT THE AUTHORSLeonardo Porto PASSOSState University of Campinas(UNICAMP), Campinas SPBrasil. Master's student at the Graduate Program in Music (PPGM) at the Institute of Arts (IA).José FORNARIState University of Campinas(UNICAMP), Campinas SP Brasil. Career Researcher Pq at CPG/DM/IA. Doctoral degree in Electrical Engineering (UNICAMP).Processing and publication by theEditora Ibero-Americana de Educação.Reviewing, formatting, standardization and translation.