An efficient and accurate method for binary quantification (2022)
- Authors:
- Autor USP: HASSAN, WAQAR - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- DOI: 10.11606/T.55.2022.tde-16082022-112629
- Subjects: APRENDIZADO COMPUTACIONAL; INVARIANTES CONFORMES; MINERAÇÃO DE DADOS
- Keywords: Aprendizado supervisionado; Classificação; Classification; Distribution matching methods; Machine learning; Métodos de correspondência de distribuição; Métodos de mistura; Mixture methods; Quantificação; Quantification; Supervised learning
- Agências de fomento:
- Language: Inglês
- Abstract: A quantificação é um tópico de pesquisa próspero que estima as prevalências de classe em uma amostra de teste. Quantificação e classificação compartilham várias semelhanças. Por exemplo, o método de quantificação mais simples (ainda que tendencioso), Classifica & Conta (CC), utiliza um classificador para prever a classe de cada instância em uma amostra e calcular as proporções das classes. No entanto, CC apresenta um erro sistemático que cresce à medida que a distribuição de classe se distancia de uma distribuição que ela quantifica de maneira ideal. Esta questão tem motivado pesquisadores em quantificação a propor métodos de contagem mais confiáveis. Tais propostas superam o método CC, mas são significativamente mais ineficientes durante a inferência. No entanto, o tempo de inferência rápido é vital para inúmeras aplicações. Por exemplo, dados de sensores, análise de tweets e feed de notícias precisam processar fluxos rápidos ou um grande volume de dados. Esta tese investiga e propõe um algoritmo de quantificação altamente eficiente capaz de processar grandes volumes de dados normalmente requeridos por aplicações de Big Data e fluxo de dados. Nossa principal contribuição técnica é o Sample Mean Matching (SMM), um quantificador capaz de contar um bilhão de instâncias por segundo com precisão similar ao estado-da-arte. Além disso, o desempenho dos métodos de quantificação varia com as mudanças no tamanho do conjunto de teste, mudança de distribuição e casos de dados detreinamento equilibrados ou desequilibrados. Portanto, integramos diferentes configurações da literatura e recomendamos uma configuração experimental abrangente para avaliar os desempenhos de quantificares.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2022
- Data da defesa: 27.07.2022
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
HASSAN, Waqar. An efficient and accurate method for binary quantification. 2022. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2022. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16082022-112629/. Acesso em: 10 out. 2024. -
APA
Hassan, W. (2022). An efficient and accurate method for binary quantification (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16082022-112629/ -
NLM
Hassan W. An efficient and accurate method for binary quantification [Internet]. 2022 ;[citado 2024 out. 10 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16082022-112629/ -
Vancouver
Hassan W. An efficient and accurate method for binary quantification [Internet]. 2022 ;[citado 2024 out. 10 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16082022-112629/
Informações sobre o DOI: 10.11606/T.55.2022.tde-16082022-112629 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas