An efficient and accurate method for binary quantification (2022)
- Authors:
- Autor USP: HASSAN, WAQAR - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- DOI: 10.11606/T.55.2022.tde-16082022-112629
- Subjects: APRENDIZADO COMPUTACIONAL; INVARIANTES CONFORMES; MINERAÇÃO DE DADOS
- Keywords: Aprendizado supervisionado; Classificação; Classification; Distribution matching methods; Machine learning; Métodos de correspondência de distribuição; Métodos de mistura; Mixture methods; Quantificação; Quantification; Supervised learning
- Agências de fomento:
- Language: Inglês
- Abstract: A quantificação é um tópico de pesquisa próspero que estima as prevalências de classe em uma amostra de teste. Quantificação e classificação compartilham várias semelhanças. Por exemplo, o método de quantificação mais simples (ainda que tendencioso), Classifica & Conta (CC), utiliza um classificador para prever a classe de cada instância em uma amostra e calcular as proporções das classes. No entanto, CC apresenta um erro sistemático que cresce à medida que a distribuição de classe se distancia de uma distribuição que ela quantifica de maneira ideal. Esta questão tem motivado pesquisadores em quantificação a propor métodos de contagem mais confiáveis. Tais propostas superam o método CC, mas são significativamente mais ineficientes durante a inferência. No entanto, o tempo de inferência rápido é vital para inúmeras aplicações. Por exemplo, dados de sensores, análise de tweets e feed de notícias precisam processar fluxos rápidos ou um grande volume de dados. Esta tese investiga e propõe um algoritmo de quantificação altamente eficiente capaz de processar grandes volumes de dados normalmente requeridos por aplicações de Big Data e fluxo de dados. Nossa principal contribuição técnica é o Sample Mean Matching (SMM), um quantificador capaz de contar um bilhão de instâncias por segundo com precisão similar ao estado-da-arte. Além disso, o desempenho dos métodos de quantificação varia com as mudanças no tamanho do conjunto de teste, mudança de distribuição e casos de dados detreinamento equilibrados ou desequilibrados. Portanto, integramos diferentes configurações da literatura e recomendamos uma configuração experimental abrangente para avaliar os desempenhos de quantificares.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2022
- Data da defesa: 27.07.2022
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
HASSAN, Waqar. An efficient and accurate method for binary quantification. 2022. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2022. Disponível em: https://teses.usp.br/teses/disponiveis/55/55134/tde-16082022-112629/. Acesso em: 16 abr. 2026. -
APA
Hassan, W. (2022). An efficient and accurate method for binary quantification (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55134/tde-16082022-112629/ -
NLM
Hassan W. An efficient and accurate method for binary quantification [Internet]. 2022 ;[citado 2026 abr. 16 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-16082022-112629/ -
Vancouver
Hassan W. An efficient and accurate method for binary quantification [Internet]. 2022 ;[citado 2026 abr. 16 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-16082022-112629/ - Pitfalls in quantification assessment
- Accurately quantifying under score variability
- Accurately quantifying a billion instances per second
- The importance of the test set size in quantification assessment
- Modeling and predicting crimes in the city of São Paulo using graph neural networks
- Exploring urban factors with autoencoders: relationship between static and dynamic features
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas