Gestão de Conteúdos Multimédia

por Christopher Edgley, Ricardo Maçãs e Vera Korchevnyuk

A quantidade de conteúdos multimédia em plataformas na Internet tem vindo a aumentar de uma forma nunca antes vista o que implica uma necessidade de os gerir de forma eficiente. No presente relatório expõe e explica-se essa gestão de conteúdos através de infraestruturas e algoritmos sofisticados, as novas funcionalidades que esta explosão de dados permitiu tais como o reconhecimento facial ou os sistemas de recomendação e aborda-se algumas questões do domínio da gestão de direitos, ética e negócio.

Introdução

Nas últimas décadas, temos testemunhado uma revolução no mundo da comunicação. A criação, transmissão e receção de dados tornou-se mais simples e rápida pelo que o volume de texto, vídeo, imagens, entre outros é enorme e está em constante crescimento.

Os milhares de milhões de dados tornam necessária uma gestão, armazenamento e processamento muito eficientes por meio não só de infraestruturas (sistemas distribuídos) como de algoritmos de classificação (redes neuronais profundas). Com estes dados, surgem novas funcionalidades nunca antes imaginadas e inovadoras maneiras de extrair informações úteis.

Novos negócios tiveram a sua origem neste contexto tanto com o propósito de gerir os muitos conteúdos gerados, como para tirar proveito desses dados e propor novas soluções para questões existentes; novos problemas relacionados com a gestão de direitos e a cedência de dados pessoais são outras das consequências.

As Secções estão organizadas da seguinte maneira: na Secção 2 começamos com o contexto em que o tema do presente relatório se enquadra; explicamos, na Secção 3, a parte mais técnica da gestão deste grande catálogo multimédia, mais precisamente as infraestruturas para isso necessárias e os algoritmos utilizados; as Secções 4, 5 e 6 abordam a gestão de direitos, o negócio e os aspetos éticos do tema; por fim, a Secção 7 conclui o relatório e faz apontamentos para o futuro.

Contexto

A rapidez e a simplicidade como hoje transmitimos dados mudou para sempre a forma como comunicamos. Tornou-se muito fácil partilhar texto, imagens, vídeos em tempo real o que reduziu as distâncias entre as pessoas e uniu o mundo como antes nunca.

A transição analógico-digital, o aumento da capacidade de processamento dos aparelhos, a banalização do uso da Internet, o desenvolvimento e popularidade de plataformas de troca de dados são as principais razões para esta revolução na comunicação e pelo facto do volume de dados existente na Internet ser difícil de imaginar.

Desde que abriu esta página...

Foram enviados tweets, fotos do Instagram, fotos do Tumblr, feitas chamadas do Skype, pesquisas do Google, vistos vídeos de YouTube, enviados emails (a maioria spam!), e transferidos gigabytes na Internet.

Visualização 1: Estimativas de actividade de plataformas multimédia e outros serviços online. Fonte: internetlivestats.com

Estes valores são realmente difíceis de imaginar e realça-se que são os dados por segundo! Estes números aumentam todos os dias. No Gráfico 1 podemos ver a evolução ao longo dos anos das horas de vídeo que são, por minuto, importadas no Youtube para sentirmos melhor a necessidade de gestão destes que são os mais pesados tipos de conteúdo multimédia.

Podemos também juntar que o número de pessoas online é cerca de 3.5 milhares de milhões e que um terço deles é utilizador ativo da rede social mais famosa e utilizada do mundo – Facebook – onde geram e consomem conteúdos.

Gráfico 1: Evolução das horas de vídeo importadas no Youtube (por minuto). Fonte: statista.com

Plataformas Multimédia

A quantidade de conteúdos é impressionante e está em crescimento exponencial, como se pode ver pelo caso da plataforma Youtube no Gráfico 1. A primeira questão que surgirá é - onde estão todos estes dados? Acessíveis em apenas um clique, diz-se que estão na "nuvem" ou "cloud". Evidentemente, não existe de facto uma nuvem na Internet, mas apenas computadores de empresas que detêm enormes catálogos multimédia com todo o conteúdo que os utilizadores lhes confiam.

Infraestruturas

Na história da computação, grandes computadores foram utilizados para gerirem dados em sistemas centrais de empresas (chamados mainframes). Do tamanho de uma sala enorme, guardavam os dados de bancos e outras instituições de forma centralizada. No entanto, estes sistemas eram muitas vezes acedidos esporadicamente, por uma quantidade de utilizadores limitada, funcionando independentemente. Para acomodar a quantidade de multimédia anteriormente referida numa só localização, seria necessário um computador incrivelmente grande, de difícil manutenção, com uma capacidade de processamento impossivelmente rápida e geograficamente perto apenas de uma quantidade limitada de utilizadores.

Qual seria uma solução mais inteligente? Como existem milhares de pessoas a acederem em simultâneo a estas plataformas multimédia, faz sentido ter milhares de computadores em simultâneo a responder a cada uma delas, mas que trabalhem em uníssono, como se de um único computador se tratasse, propriedade que se chama de "transparência". Melhor, se fosse apenas uma máquina, esta teria de estar sempre funcional ou todo o serviço pararia - com um sistema distribuído, falhas de máquinas são facilmente respondidas por outras, propriedade que se denomina "tolerância a falhas". Além disso, é fácil de acrescentar mais máquinas quando o serviço cresce: um mainframe teria de ser desligado para fazer melhorias. Diz-se por isso que um serviço distribuído é "escalável".

De facto, quando acedemos a serviços como o Facebook, fazemo-lo a partir de qualquer dispositivo, em (quase) qualquer parte do mundo, e obtemos os conteúdos com base na nossa rede social de amigos. Para o utilizador, cada vez que acede ao serviço, está a aceder a uma abstração de milhares de máquinas que estão por detrás - uma delas será responsável por responder ao seu pedido e certamente não será sempre a mesma, mas o utilizador não notará a diferença.

Assim, plataformas como o Facebook distribuem os conteúdos multimédia por vários centros de dados espalhados pelo mundo e os computadores comunicam entre si para assegurar que o utilizador consegue sempre encontrar o caminho entre si e o conteúdo que procura, onde quer que ele esteja. Para isso, há várias formas de distribuição em jogo: acesso distribuído, armazenamento distribuído e computação distribuída.

A distribuição ao nível de acesso significa que ainda que todos os utilizadores acedam ao serviço da mesma forma, nem todos acedem ao mesmo nó. Plataformas de multimédia especialmente volumosa (por exemplo, distribuição de vídeos, em que cada vídeo requer capacidade da ordem dos megabits por segundo de vídeo) recorrem a vários nós de distribuição espalhados por todo o mundo, muitas vezes localizados no próprio operador de telecomunicações do utilizador. Isto significa que o seu vídeo do YouTube pode ser tão popular na rede do seu operador que fica armazenado num computador que está ligado diretamente a ele. Isto é conveniente para o operador, visto que reduz a quantidade de dados (tráfego) que este tem de encaminhar para redes internacionais, por vezes a custo adicional; e também para o utilizador, que pode aceder aos seus vídeos mais rapidamente através de um nó que se situa mais perto dele. Estes nós colocados perto do utilizador são chamados de edge nodes ("nós de beira/borda", porque se situam na ponta da rede, longe dos nós centrais).

Estes edge nodes não podem ter conhecimento de todo o conteúdo da rede: são pequenos nós que vão guardando apenas a informação mais popular para os utilizadores desse nó, que vai mudando (este tipo de armazenamento temporário é denominado de cache). Cada edge node está ligado a outros nós, interior nodes (nós interiores), que têm mais informação e aos quais os pedidos são deferidos sempre que o edge node não encontra os conteúdos no seu armazenamento local. Estes nós interiores estão por sua vez ligados aos nós de origem, onde se situam todos os conteúdos a serem distribuídos. Esta rede de nós que espalha os conteúdos de uma quantidade pequena de computadores de origem a milhares de pontos de distribuição pelo mundo é chamada de uma rede de distribuição de conteúdos (CDN - content distribution network - Figura 1) [1].

Figura 1 - Diagrama de uma rede de distribuição de conteúdos

Assim, o acesso distribuído significa que ao aceder a um vídeo de Netflix, primeiro é consultado um computador local à rede do seu operador, se existir; e se não for encontrado, outros computadores são consultados sucessivamente até que seja possível transmitir-lhe o seu vídeo. Ao colocar milhares de computadores pelo mundo perto dos utilizadores, significa que a maior parte dos conteúdos que acedem são obtidos rapidamente e que nenhum computador individual é responsável por todos os pedidos de vídeos populares.

No entanto, serviços de multimédia como o Netflix são convencionais na medida em que servem ao utilizador um catálogo relativamente estático de conteúdos. Já o Facebook possui milhões de fotos, adicionados constantemente. O acesso distribuído não é suficiente: num histograma ordenado pela popularidade, uma parte reduzida dos conteúdos é popular (menos de 5%) e rapidamente a popularidade decai, criando uma long tail (cauda longa). Isto significa que apenas uma parte pequena dos conteúdos pode ser guardada perto do utilizador, o que deixaria uma quantidade enorme de dados por guardar num computador de origem. Assim, mesmo na origem dos dados, é necessário lidar com uma quantidade de dados superior a qualquer computador individual, com o mesmo problema: ser acessível por pedido instantaneamente. Para resolver este problema, existem tecnologias de armazenamento distribuído.

A primeira tecnologia de armazenamento distribuído a surgir foi criada pela Google, pioneira do motor de pesquisa mais popular do mundo, que enfrentou este problema primeiro com a sua base de dados de páginas da Web. Então, a Google criou o GFS (Google File System) [2]. Este é um sistema de ficheiros distribuído, em que os ficheiros são geridos por um computador mestre (GFS master) mas guardados em vários computadores (GFS chunkserver, "chunk" significa pedaço, pois os ficheiros são compartimentados em pedaços guardados nos chunkservers). O conjunto de computadores num sistema de GFS é chamado de "cluster". O computador mestre não dá ficheiros, mas apenas funciona como um maestro - mantém uma lista de ficheiros e a localização dos seus pedaços (chunks). Quando algum cliente pede um ficheiro ao mestre, ele verifica a sua base de dados para perceber quais são os pedaços e os locais onde se encontram e informa o cliente da lista de pedaços e as suas localizações. O cliente depois pode pedir a cada chunkserver os chunks que necessita e montar o ficheiro que procurava (Figura 2). Desta forma, não só nenhum computador possui todos os ficheiros, como nenhum computador individual transmite todo o ficheiro, o que permite a vários computadores pedir ficheiros ao mesmo tempo com grande eficiência.

Figura 2 - Diagrama de funcionamento do Google File System. Fonte: seminarsonly.com

Assim, o YouTube pode ter milhões de vídeos guardados distribuídos por centros de dados em todo o mundo, acessíveis num clique. Há conteúdos que, no entanto, à medida que ficam mais velhos, raramente são utilizados, pelo que são guardados em sistemas de armazenamento mais lento (mas mais barato) - chamados de cold storage (armazenamento frio, assim denominado pela sua fraca utilização). Por exemplo, o Facebook utiliza robôs manipuladores de Blu-ray para guardar dados que são pouco prováveis de serem acedidos - os robôs pegam em discos Blu-ray, colocam-nos em gravadores Blu-ray para guardar os dados e depois arruma-nos de forma a poderem ser acedidos novamente.

Outro sistema de ficheiros popular é o Apache Hadoop, que está disponível em código aberto para utilização por qualquer pessoa. O Hadoop [3] foi originalmente desenvolvido pelo competidor da Google, a Yahoo!, e funciona de forma similar ao GFS, com um nó de nomes (NameNode, equivalente ao GFS master) e nós de dados (DataNodes, equivalente aos GFS chunkservers).

No entanto, estes dados podem não ser simplesmente acedidos, mas também processados. O número de dispositivos diferentes em que as pessoas acedem às plataformas multimédia não para de crescer e com ligações à Internet de qualidade variável. Assim, muitas vezes é necessário adaptar os conteúdos a vários tipos de dispositivo, consoante a velocidade da sua ligação e o tamanho do ecrã do dispositivo. Por outro lado, a pesquisa e classificação de conteúdos de plataforma multimédia requer processar dados de milhões de conteúdos para os identificar e poder fornecê-los ao utilizador a quem são relevantes. Assim, também o processamento de dados tem de ser distribuído, há assim necessidade de utilizar a computação distribuída.

Originalmente utilizada para computação científica, com tarefas complexas para as quais milhares de máquinas eram usadas, a computação distribuída passou a ser usada em serviços multimédia para processar a quantidade cada vez maior de dados que possuem, fenómeno denominado de BigData. Um dos primeiros paradigmas de computação em grandes quantidades de dados foi introduzido pela Google em 2004, chamado de MapReduce [4] (em português, "MapearReduzir"). Este paradigma baseia-se na ideia que, para resolver um problema complexo, é mais fácil fazer vários problemas mais simples, uma estratégia conhecida como "dividir para conquistar". Em sistemas com muitos dados, é comum guardar cada informação como uma "entrada" na plataforma - pode ser uma estatística, uma imagem ou qualquer outra informação que possa ser processada. Para perceber como funciona, explicar-se-á a função de Mapear e de Reduzir e como combinadas permitem fazer operações sobre muitos dados de forma simples.

O mapeamento consiste em pegar numa entrada e mapear essa entrada para o resultado de uma operação simples nesse valor. Posteriormente, obtém-se uma lista de valores que é ordenada (chamado de Shuffle, ou baralhar) e é reduzida a um só resultado pretendido, a chamada operação de "redução". Estas operações, como funcionam em entradas diferentes, possibilitam que sejam executadas por vários computadores ao mesmo tempo (concorrentemente), permitindo acelerar o processamento dos dados. A combinação das operações simples substitui então um cálculo que seria complexo sobre muitos dados. Uma analogia da vida real é dada: eleições.

Numa contagem de votos entre candidatos, os votos de cada candidato podem ser contados executando uma operação simples em cada voto - "verificar qual o candidato votado". Estas operações podem ser executadas por várias pessoas, dividindo os votos em várias pessoas e cada uma executando a operação - isto corresponde ao mapeamento. Após mapear cada voto ao candidato, o voto é colocado num grupo de votos para esse candidato - esta operação ajuda a contagem final e corresponde ao "shuffle". Finalmente, os votos de cada grupo de um candidato são contados, reduzindo o grupo a um único número - o resultado da votação para o candidato (a operação de redução). Tanto o mapeamento como a redução são executados localmente por cada assembleia de voto, que comunica o seu resultado a uma entidade central, para assim obter o resultado final da eleição.

Figura 3 – Esquema de fluxo do algoritmo MapReduce . Fonte: artifice.cc

Da mesma forma, existe uma entidade que gere a distribuição de trabalho e divide em tarefas de mapeamento e redução, que são executadas localmente nos nós mais perto dos dados necessários. Assim, um utilizador pede um trabalho (job) a ser executado. Ele é enviado a uma máquina "JobTracker" ("rastreador de trabalhos"). O JobTracker divide o trabalho em tarefas (tasks) mais simples, que são enviadas para outros computadores, os "TaskTrackers" ("rastreadores de tarefas"). Os TaskTrackers vão pegar nos dados e vão executar as tarefas de mapeamento, obtendo os valores intermédios de interesse. Quando as tarefas de mapeamento estiverem concluídas, os resultados são guardados e o JobTracker é notificado, que ordena o começo da fase de redução. Para isso, os TaskTrackers primeiro organizam os dados intermédios (o chamado "Shuffle", ou baralhar), para depois poderem combinar os valores corretos e reduzirem à resposta pretendida.

Novos sistemas surgiram mais recentemente, como o Apache Spark, desenvolvido com base em investigação da Universidade de Califórnia, que propõe um paradigma similar, mas mais avançado. Enquanto que as transformações elementares do MapReduce seriam sempre mapeamentos e reduções, o Apache Spark introduz filtragens (para filtrar dados nas operações intermédias), uniões (para unir conjuntos de dados durante o cálculo), junções, entre outros. Com estas operações mais avançadas, torna-se possível acelerar ainda mais o processamento, permitindo correr algoritmos avançados, como redes neuronais [5], sobre grandes conjuntos de dados.

Os sistemas distribuídos são a ferramenta essencial das plataformas multimédia, no entanto, o seu poder está nos seus conteúdos. Seria impossível a qualquer humano explorar esta vasta imensidão de dados sem ajuda, pelo que a capacidade de processamento previamente discutida abre portas para que cada pessoa possa descobrir os conteúdos que procura, com a ajuda de algoritmos de pesquisa, recomendação e identificação de conteúdos.

Algoritmos

Todos estamos familiarizados com os motores de busca que, num curto período de tempo, conseguem extrair do mar de dados (texto, imagens, vídeos, pessoas, etc) os conteúdos mais relevantes. Visto que o volume desse mar está em crescimento, o processo de procura tem vindo a ser desenvolvido para que o acesso aos dados seja eficaz.

A Google, que é hoje, como já foi referido, um dos mais importantes motores de busca, começou por usar algoritmos simples como o PageRank, que recorre ao número de citações e links de uma determinada página web para determinar a sua relevância; expandiu para abranger a pesquisa de novos tipos de conteúdos como imagens, notícias e livros (não apenas páginas web), de onde surgiu o conceito de Universal Search; posteriormente, no sentido de alcançar uma interação mais natural, introduziu o conceito de “autocomplete” que prevê os resultados desejados, mesmo antes de o utilizador ter acabado de introduzir o seu pedido; um enorme grafo de dados do mundo real e respetivas ligações está a ser construído, conhecido como Google Knowledge Graph, que também tem como objetivo apresentar os resultados da pesquisa de forma a explorar os dados da melhor maneira; atualmente já é possível fazer as pesquisas arrastando imagens para o motor de busca e a empresa está a trabalhar no sentido de tornar a ferramenta capaz de responder a questões ainda mais complexas.

Também o Facebook, a que Yann LeCun se juntou recentemente (ver [6]), está a trabalhar no sentido de introduzir aos seus utilizadores novas funcionalidades na área do reconhecimento facial e na descrição (legenda) automática de imagens para pessoas com deficiência visual. A legendagem automática de vídeos em qualquer língua e a recomendação de conteúdos também são áreas em desenvolvimento e já muito presentes no dia-a-dia (por exemplo, no Youtube).

Todos estes notáveis resultados tornam-se em grande parte possíveis devido à imensa quantidade de dados disponível, aliada ao crescimento das infraestruturas (hardware e software) para o treino de algoritmos de aprendizagem profunda (deep learning) que são essencialmente algoritmos estatísticos melhorados e otimizados da teoria clássica de redes neuronais.

As redes neuronais podem ser vistas como grafos de computação orientados (ver [7]) que aplicam às entradas uma determinada função (linear ou não) cujo valor será responsável pela classificação da entrada na rede. Todos os nós deste grafo aplicam uma operação linear ou não linear e são caracterizados por um parâmetro que corresponde ao peso atribuído à sua entrada. Estas estruturas têm o nome de Multi-Layer Perceptron. Para que os nós das redes aprendam os pesos adequados, elas têm de ser treinadas com dados previamente classificados. O treino consiste na definição de uma função de erro (diferença entre a classificação obtida e a desejada) que, por métodos iterativos, será minimizada. Alimentando a rede com todos os padrões de treino, refina-se o valor dos pesos e generaliza-se a rede para novas entradas, diferentes das de treino.

Um exemplo simples pode ser a classificação de uma imagem como sendo a de um gatinho ou de um cãozinho, como se pode ver na Figura 1.

Figura 4 - Exemplo de uma rede neuronal simples para classificação de imagens. Fonte: Astudillo R. F., Unbabel Inc.

A rede é alimentada com muitas imagens de gatinhos e cãezinhos sabendo, à partida, a classificação desejada. Assim, os nós da rede adaptam-se ao resultado pretendido e a rede torna-se capaz de receber qualquer imagem de gatinho ou cãozinho e classificá-la com tanta maior exatidão, quanto maior for a qualidade do treino.

As redes profundas são um “upgrade” das redes clássicas: o número de nós e camadas em que estão organizadas é sensivelmente maior o que as torna preparadas para manipular um volume muito maior de dados e evolvem melhores resultados, mas precisam de muito mais capacidade computacional. Com elas, aumentou a confiança na classificação automática de dados. A popularidade destas redes tem vindo a ser cada vez maior, como se pode ver pelo Gráfico 2, principalmente devido ao sucesso que têm vindo a ter.

Elas resolvem problemas cada vez mais complicados, cada vez mais rapidamente. São normalmente treinadas em certos contextos específicos.

O processamento de imagens feito pelo Facebook é um processo ligeiramente diferente do descrito nos parágrafos anteriores pois recorre a redes neuronais convolucionais cujo padrão de organização dos nós está relacionado com a maneira como a informação é processada no cérebro dos animais.

Gráfico 2 - Evolução desde 2004 até 2016 dos temas deep learning (azul) e machine learning (vermelho). Fonte: Google Trends

Por linhas gerais: todas as imagens que existem no Facebook atravessam duas redes convolucionais em menos de 2 segundos – uma primeira que identifica objetos na imagem, ou seja, permite perceber o conteúdo da imagem, usado para criar as legendas automáticas das imagens; e uma segunda que está especializada em reconhecimento facial (não ativado na Europa). O reconhecimento facial desta plataforma destaca-se por esta possuir a maior quantidade destes dados classificados (utilizadores identificam manualmente as caras presentes nas imagens). Esta base de dados é usada para construir redes profundas com exatidão que atinge 98.7%, o que é tão bom quanto um ser humano consegue fazer.

Outra área na qual a BigData teve um grande impacto foi no reconhecimento automático da fala que tornou possíveis sistemas como Siri (Apple), Cortana (Microsoft) ou Alexa (Amazon).

Tal como se pode consultar em [8], o YouTube, por sua vez, tem atualmente o maior e mais sofisticado sistema de recomendação de vídeos cujo objetivo é sugerir aos utilizadores conteúdos em que eles possam estar interessados. A tarefa é extremamente desafiante devido não só à escala da plataforma (enorme número de vídeos, que está sempre a aumentar) como também à necessidade de esta ser responsiva o suficiente para apresentar conteúdos recentes, relevantes e, ao mesmo tempo, personalizados a cada utilizador. Na gestão deste tipo de dados destaca-se o muito importante papel dos metadados (informação sobre o vídeo: título, descrição, etiquetas, categorias, legendas, etc.) que devem estar muito bem estruturados para permitirem uma manipulação eficiente. Para conseguir um resultado satisfatório o YouTube recorre a mecanismos de aprendizagem profunda com treino distribuído em larga escala em que o sistema aprende na ordem dos mil milhões de parâmetros. Com isto são resolvidos os dois problemas deste tópico: a criação candidatos e o respetivo ranking.

As redes neuronais profundas são cada vez mais comuns e acessíveis. TensorFlow, por exemplo, é um software de código aberto (open source software) que tem uma arquitetura flexível que facilita muito a computação da Google, inicialmente desenvolvido para os seus investigadores e engenheiros e agora estendido a programadores que queiram testar as suas “crazy ideas”. Isto permite uma abordagem diferente aos atuais problemas.

Por fim, referimos também o potencial dos dados disponíveis para extração de informação, como se fez por exemplo no Gráfico 2 recorrendo ao Google Trends, com objetivos que podem ser encontrar tendências ou perceber reações dos utilizadores a determinados conteúdos.

Gestão de direitos multimédia

Algumas das consequências do discutido até aqui foram a facilidade da partilha com o mundo das criações de qualquer indivíduo ou conjunto de indivíduos e também a possibilidade de partilha indesejada em massa de conteúdos sem a licença necessária. O consumo massivo de conteúdos multimédia online é um fenómeno indeclinável e consequentemente será árdua a tarefa de o fiscalizar.

Em consequência do grande volume de conteúdo multimédia distribuído ilicitamente na internet, são prejudicados os criadores como também os distribuidores certificados, uma vez que o seu modelo de negócio se centra na comercialização destes conteúdos. Uma estimativa de lucro extraviado na indústria de música é feita pela RIAA (Recording Industry Association of America) de um valor de $12.5 mil milhões anuais. De acordo com o “Wall Street Journal”, é estimado serem $18.5 mil milhões de receitas perdidas anualmente (Dados extraídos de [9])

A possibilidade de cópia ilimitada de conteúdo viabiliza esta distribuição descontrolada, ameaçando os direitos de propriedade intelectual dos autores originais. Os sistemas de DRM – Digital Rights Management (Gestão de Direitos Digitais) tornam-se indispensáveis na proteção das estratégias de comércio dos distribuidores, tentando controlar até certo ponto esta dispersão indesejada.

Sistemas de DRM geralmente utilizam técnicas de encriptação do conteúdo, acesso condicionado ao acesso dos dados, por forma a impedir acesso desautorizado, mecanismos de controlo de cópia e ainda identificação e deteção da origem de média.

Watermarking (“marca de água”) é a tecnologia utilizada para controlo de cópias e identificação e deteção da origem de media. Muitos métodos de watermarking são realizadas com técnicas que envolvem espalhar o watermark sobre os dados todos, semelhante ao espalhamento espectral em CDMA. São adicionadas modificações muito pequenas às entidades básicas constituintes do conteúdo, por exemplo a alteração de um bit a cada pixel de uma imagem, para garantir imperceptibilidade e dificuldade de remoção do watermark. Tipicamente previne-se o acesso à descodificação do watermark por encriptação utilizando uma chave cripográfica segura.

Uma modificação possível ao sinal será a injeção de pseudo-ruído de baixa amplitude. Posteriormente é possível a sua descodificação utilizando bancos de correlacionadores, que têm a informação prévia do conjunto de sinais de pseudo-ruído possíveis, podendo-se assim identificar a origem ou outros dados relevantes. O ruído inerente do sinal em questão usualmente impede a deteção do watermark. Como sinais do mundo real, como imagens e vídeo, usualmente contém algum ruído, o watermark é escondido nesse.

Toma-se o exemplo prático de DRM no caso de áudio iTunes, que visa a impedir a reprodução indevida de música pelos seus clientes. Este impõe restrições escondidas nos conteúdos de forma a impossibilitar cópias como também salvar para o disco e ter acesso após cancelar a subscrição ao serviço. Porém, como qualquer forma de entretenimento popular, basta aguardar algum tempo e são desenvolvidas técnicas de remoção de DRM, reforçando a necessidade de evolução constante na parte dos distribuidores.

Outro exemplo é o standard de codificação de fonte MPEG-4, que oferece mecanismos de identificação de conteúdos por via da Intellectual Property Identification Data Set – IPI Data Set (Set de Dados de Identificação de Propriedade Intelectual).

Este permite identificar conteúdo por meio de sistemas de numeração de media definido em standards internacionais, como por exemplo International Standard Recording Code – ISRC (Código de Gravação Internacional Padrão), International Standard Audio-Visual Number – ISAN (Número de Padrão Internacional para conteúdo Audiovisual), ISBN (relativo à numeração padrão de livros) ou Digital Object Identifier – DOI (Identificador de Objecto Digital). É também associados chaves a valores aos pares (e.g. “Autor”/“Cheng”), paralelo ao conceito de metadados discutido anteriormente. O IPI Data Set poderá ser utilizado por sistemas de Intellectual Property Management and Protection – IPMP (Proteção e Gestão de Propriedade Intelectual) como input no processo de proteção e gestão de conteúdos multimédia. Para mais informação, ver [10].

Negócio

Torna-se muito pertinente a oportunidade de negócio no desenvolvimento de serviços e ferramentas de processamento do volume imenso de dados. Negócios da Nuvem (por exemplo: Data Cloud, Amazon, …) propõe gerir estes enormes catálogos multimédia (DaaS).

Automatic Speech Recognisers (por exemplo: Siri – Apple) tiram partido da enorme quantidade de dados existente para treinar as suas profundas redes neuronais e conseguir reconhecimento quase tão bom como o humano (IaaS).

Um aspeto muito importante no negócio de média é a manipulação de BigData com vertente no marketing e publicidade (AaaS) que se tornou o principal motor e cliente das plataformas online “gratuitas”. Permitem que os serviços sejam monetariamente acessíveis a todos, sendo o seu lucro feito indiretamente.

O surgimento da necessidade de processar este volume de dados criou oportunidade de novos modelos de negócio. Em legado de focar nas variadas formas que uma empresa poderá monetizar o ecossistema de BigData, estes modelos de negócio centram-se em companhias que possuem conteúdo e que gostariam de monetizar de alguma forma.

Estes são: DaaS – Data as a Service (Dados como serviço), que consiste basicamente no fornecimento de grandes quantidades de dados processados aos seus clientes (por exemplo, a empresas de estatísticas); IaaS – Information as a Service (Informação como serviço) trata-se do serviço de informações pertinentes retiradas dos dados processados. Estes podem conter, por exemplo, dados de localização retirados de aparelhos com sistemas de posicionamento global podem ser comprados por uma empresa que queira compilar mapas; AaaS – Answers as a Service (Respostas como serviço) consiste no nível mais alto de serviços no processamento de dados volumosos, “respostas” concretas, querendo dizer conteúdos já adaptados ao perfil do utilizador. Toma-se como exemplo as recomendações de vídeos (como no Youtube) ou informação publicitária personalizada e específica ao utilizador (“tailored”). Para mais informações, ver [11].

Aspectos Éticos

As plataformas de multimédia atuais acumulam grandes quantias de dados e de conteúdos que trazem interessantes problemas éticos.

Na procura de corresponder cada utilizador ao conteúdo que lhe interessa na vastidão de oferta disponível, surgem questões éticas sobre o que as pessoas deixam mostrar ao mundo (privacidade) e, o problema inverso, o que do mundo é mostrado às pessoas (personalização). Em plataformas multimédia personalizadas, estas problemáticas estão intrinsecamente ligadas: a recolha de dados do utilizador alimenta algoritmos que otimizam o conteúdo multimédia que lhe é apresentado.

Violação da privacidade

As preferências de cada pessoa podem ser surpreendentemente singulares. As plataformas online procuram obter informações sobre o utilizador para melhor corresponderem às suas necessidades, não apenas em dados explicitamente pessoais, como idade e género, mas também gostos pessoais, amigos, ... Estes últimos podem identificar as pessoas de forma muito mais explícita do que os dados demográficos convencionais, especialmente quando são agregados por utilizador.

A informação que é fornecida a plataformas multimédia pode invadir a privacidade de formas inesperadas. Imagine que uma plataforma de música social oferece playlists dependendo do local em que se encontra: em casa música para relaxar, no trabalho música para se focar, no ginásio uma batida acelerada. Assim, esta plataforma possui não só os seus gostos musicais, mas também a sua localização ao longo do tempo, a sua morada da residência, local de trabalho, local do ginásio e uma ligação ao perfil da sua rede social, com os seus dados pessoais. Embora seja conveniente sugerir música adequada, a especificidade da informação que este serviço possui é problemática, mantendo essencialmente um registo da vida do utilizador sem que este necessariamente se aperceba.

Apesar de cada utilizador se encontrar no meio de milhares de outros e poder acreditar que a sua atividade se confunde no meio dos restantes, o poder computacional moderno significa que é possível identifica-lo em particular rapidamente. Outras plataformas também recolhem dados, criando um rasto destas informações, que podem ser cruzadas por entidades maliciosas para revelar a sua identidade, podendo mesmo fazer-se passar pelo utilizador e estragar a sua reputação (confira a Visualização 2).

Visualização 2: uma amostra em tempo real do conteúdo do Twitter

Personalização como polarizador da sociedade

As plataformas multimédia trabalham para que os utilizadores fiquem satisfeitos com o que veem, para que voltem sistematicamente e passem tempo na mesma, contribuindo para os lucros publicitários. Para isso, aplicam alguns dos algoritmos previamente mencionados para otimizar a interação do utilizador.

Um utilizador que frequente estas plataformas verá as suas recomendações convergir para os seus gostos, sugerindo novo conteúdo com base no seu perfil. Assim, cria-se um espaço familiar ao utilizador - uma bolha filtrada - onde o utilizador encontra a sua própria maneira de ver o mundo. O critério algorítmico de fornecer ao utilizador aquilo que provavelmente gosta prevalece, em detrimento de outros critérios utilizados nos media tradicionais, como relevância, transparência, integridade e imparcialidade; disseminando a grande velocidade conteúdos com informação que pode ser falsa, mas que rapidamente atraem um elevado número de utilizadores interessados antes de poderem ser retraídos. Até que ponto os utilizadores ou os algoritmos são responsáveis por este efeito é contestado: utilizadores com um consumo de conteúdos diversos em opiniões terão sugestões mais balanceadas, no entanto não é claro se será razoável assumir que os utilizadores sejam imparciais na sua interação. Aliás, a cooperação entre os utilizadores e o algoritmo significa que, em alguns algoritmos, qualquer utilizador se pode polarizar: uma "ligeira" parcialidade dá um sinal ao algoritmo para que dê conteúdos mais parciais, o que por sua vez pode motivar o utilizador a um interesse maior nestes devido à sua oferta mais visível na plataforma criando um ciclo que continuamente polariza a opinião do utilizador.

O filósofo Peter Sloterdijk criou o conceito da esferologia, que defende que na sociedade moderna todos somos pequenas bolhas parte de uma espuma: a forma como aceitamos qualquer perspetiva de ver o mundo como válida, mesmo que não o seja factualmente, isola-nos em pequenas bolhas com a nossa própria versão da verdade em vez de promover o confronto de ideias. A discussão sobre o problema da personalização toma novas proporções quando posições políticas antes consideradas extremas se tornam mais populares e o papel dos novos media em referendos e eleições é discutido.

O argumento mais óbvio sugere que "rebentar a bolha" - eliminar estes algoritmos de recomendação e a coleção de dados subjacente - resolve ambos os problemas discutidos. No entanto, isto não será consensual, já que como analisado na discussão técnica, as plataformas multimédia possuem tantos conteúdos que é impossível dar os que são relevantes a cada utilizador sem um mecanismo de gestão adequado, desmotivando os utilizadores para o seu uso e afastando-os da plataforma. As novas plataformas multimédia tornaram-se populares precisamente porque apelam a uma grande diversidade de pessoas com uma grande diversidade de conteúdos. Sem personalização, a plataforma tenderá a gerir os seus conteúdos de forma a focar-se num segmento particular para ser bem-sucedida, da mesma forma que os media tradicionais já o fazem – e.g. canais de televisão mais liberais, mais conservadores.... Será que a diversidade é então preservada sem personalização?

Novas respostas a este problema ético estão a ser investigadas. O antropólogo Marc Jongens argumenta que cada bolha é de facto semipermeável, ou seja, pode interagir com outras bolhas. Isto sugere que se pode manter os algoritmos de recomendação e evitar a polarização se estes não otimizarem estritamente o que os utilizadores gostam – talvez possa oferecer sugestões não tão ótimas mas relevantes, e.g. aquilo que os seus amigos que discordam consigo partilham. Esta ideia é particularmente bem-recebida nas plataformas musicais onde já existem algoritmos otimizados para descobrir nova música diferente do estilo do utilizador - não tão diferente que seja improvável que goste, mas diferente o suficiente para suscitar o seu interesse. Com a descoberta de novos conteúdos, aumenta a satisfação dos utilizadores e a bolha torna-se mais permeável, eliminando o risco de polarização.

Tarjei Vesaas, 1964: «Kvart menneske er ei øy» - «Cada homem é uma ilha», mas comunicação é a nossa ponte.

Conclusão

Os milhares de milhões de conteúdos gerados diariamente acarretam a necessidade os gerir e processar para o que são necessárias infraestruturas e algoritmos sofisticados.

Os dados podem dar origem a novas funcionalidades e modelos negócio, contudo levantam também alguns problemas muito atuais.

Futuramente, a quantidade de dados será tendencialmente maior visto que o número de utilizadores aumenta diariamente tal como os conteúdos por si gerados. Há um grande esforço por parte das empresas para acompanhar este aumento, desenvolvendo algoritmos cada vez mais sofisticados, complexos e otimizados para a sua gestão e aproveitamento para além da sempre crescente capacidade de computação que tem uma contribuição importante para este tema.

Referências

[1] J. P. Mulerikkal and I. Khalil, "An Architecture for Distributed Content Delivery Network," in 2007 15th IEEE International Conference on Networks, 2007.

[2] S. Ghemawat, H. Gobioff and S.-T. Leung, "The Google File System," in 19th ACM Symposium on Operating Systems Principles, 2013.

[3] K. Shvachko, H. Kuang, S. Radia and R. Chansler, "The Hadoop Distributed File System," in 2010 IEEE 26th symposium on mass storage systems and technologies (MSST), 2010.

[4] J. Dean and S. Ghemawat, "MapReduce: simplified data processing on large clusters," in OSDI'04 Proceedings of the 6th conference on Symposium on Opearting Systems Design & Implementation - Volume 6 , 2004.

[5] P. Moritz, R. Nishihara, I. Stoica and M. I. Jordan, "Spark Net : Training Deep Networks in Spark," in ICLR 2016, 2016.

[6] P. S. D. E. X. Z. Yann LeCun, "OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks," NY, US, 2013.

[7] R. F. Astudillo, "Automatic Speech Recognition and Deep Learning," INESC-ID, Spoken Language Systems lab, Lisbon, 2015.

[8] J. A. E. S. Paul Covington, "Deep Neural Networks for YouTube Recommendations," Mountain View, CA, 2016.

[9] S. Lander, "Chron," [Online]. Disponível em: http://smallbusiness.chron.com/loss-revenue-due-piracy-76178.html.

[10] E. R. Frank Hartung and Friedhelm Ramme, "Digital Rights Management and Watermarking of Multimedia Content for M-Commerce Applications," IEEE Communications Magazine, vol. 38, no. 11, pp. 78-84, November 2000.

[11] J. Lokitz, "Exploring Big Data Business Models & The Winning Value Propositions Behind Them".