Unsupervised acquisition of a markov model for word correction using Wikipedia
ONTARE. REVISTA DE INVESTIGACIÓN DE LA FACULTAD DE INGENIERÍA This paper presents a work in progress on the area of automatic acquisition of corpora for spelling correction. Wikipedia contains a high quantity of information including relationships between concepts and named annotations. However, it also contains linguistic information such as misspellings written by many of the Wikipedia collaborators. In this paper, we propose an efficient method to analyze the link structure of Web-based dictionaries to construct a list of misspelled words and their corrections. The method is currently being researched and applied to the Wikipedia as a corpus.
2382-3399
2745-2220
2
2015-10-30
171
180
http://purl.org/coar/access_right/c_abf2
info:eu-repo/semantics/openAccess
Revista Ontare - 2016
id |
92c1b88209ebeb4c3599699bd81cef0d |
---|---|
record_format |
ojs |
spelling |
Unsupervised acquisition of a markov model for word correction using Wikipedia Universidad Ean Text http://purl.org/coar/access_right/c_abf2 info:eu-repo/semantics/openAccess http://purl.org/coar/version/c_970fb48d4fbd8a85 info:eu-repo/semantics/publishedVersion http://purl.org/redcol/resource_type/ARTREF http://purl.org/coar/resource_type/c_6501 info:eu-repo/semantics/article Revista Ontare - 2016 https://creativecommons.org/licenses/by-nc-sa/4.0/ Español https://journal.universidadean.edu.co/index.php/Revistao/article/view/1246 Revista Ontare Publication application/pdf 2 ONTARE. REVISTA DE INVESTIGACIÓN DE LA FACULTAD DE INGENIERÍA This paper presents a work in progress on the area of automatic acquisition of corpora for spelling correction. Wikipedia contains a high quantity of information including relationships between concepts and named annotations. However, it also contains linguistic information such as misspellings written by many of the Wikipedia collaborators. In this paper, we propose an efficient method to analyze the link structure of Web-based dictionaries to construct a list of misspelled words and their corrections. The method is currently being researched and applied to the Wikipedia as a corpus. Dorado, Rubén Wikipedia -- Spelling mistakes Artículo de revista Núm. 2 , Año 2014 : Ingeniería para un desarrollo sostenible 2 Adquisición no supervisada de un modelo Markov para corrección de texto utilizando Wikipedia ONTARE. REVISTA DE INVESTIGACIÓN DE LA FACULTAD DE INGENIERÍA Este artículo presenta un estudio en desarrollo acerca de la adquisición automática de corpora para realizar correcciones ortográficas. Wikipedia posee mucha información que incluye relaciones entre conceptos y anotaciones realizadas. Sin embargo, esta herramienta también contiene información lingüística acerca de errores ortográficos escritos por colaboradores en Wikipedia. En este artículo se propone un método eficiente para analizar el vínculo estructural de los diccionarios en línea para crear una lista de palabras mal escritas y sus correspondientes correcciones. Dicho método está bajo investigación y es utilizado en Wikipedia como un corpus. Wikipedia -- Errores de ortografía Journal article Wikipedia - erros de ortografia. 171 https://journal.universidadean.edu.co/index.php/Revistao/article/download/1246/1211 180 2015-10-30 https://doi.org/10.21158/23823399.v2.n2.2014.1246 10.21158/23823399.v2.n2.2014.1246 2015-10-30T00:00:00Z 2745-2220 2015-10-30T00:00:00Z 2382-3399 |
institution |
UNIVERSIDAD EAN |
thumbnail |
https://nuevo.metarevistas.org/UNIVERSIDADEAN/logo.png |
country_str |
Colombia |
collection |
Revista Ontare |
title |
Unsupervised acquisition of a markov model for word correction using Wikipedia |
spellingShingle |
Unsupervised acquisition of a markov model for word correction using Wikipedia Dorado, Rubén Wikipedia -- Spelling mistakes Wikipedia -- Errores de ortografía Wikipedia - erros de ortografia. |
title_short |
Unsupervised acquisition of a markov model for word correction using Wikipedia |
title_full |
Unsupervised acquisition of a markov model for word correction using Wikipedia |
title_fullStr |
Unsupervised acquisition of a markov model for word correction using Wikipedia |
title_full_unstemmed |
Unsupervised acquisition of a markov model for word correction using Wikipedia |
title_sort |
unsupervised acquisition of a markov model for word correction using wikipedia |
title_eng |
Adquisición no supervisada de un modelo Markov para corrección de texto utilizando Wikipedia |
description |
ONTARE. REVISTA DE INVESTIGACIÓN DE LA FACULTAD DE INGENIERÍA
This paper presents a work in progress on the area of automatic acquisition of corpora for spelling correction. Wikipedia contains a high quantity of information including relationships between concepts and named annotations. However, it also contains linguistic information such as misspellings written by many of the Wikipedia collaborators. In this paper, we propose an efficient method to analyze the link structure of Web-based dictionaries to construct a list of misspelled words and their corrections. The method is currently being researched and applied to the Wikipedia as a corpus.
|
description_eng |
ONTARE. REVISTA DE INVESTIGACIÓN DE LA FACULTAD DE INGENIERÍA
Este artículo presenta un estudio en desarrollo acerca de la adquisición automática de corpora para realizar correcciones ortográficas. Wikipedia posee mucha información que incluye relaciones entre conceptos y anotaciones realizadas. Sin embargo, esta herramienta también contiene información lingüística acerca de errores ortográficos escritos por colaboradores en Wikipedia. En este artículo se propone un método eficiente para analizar el vínculo estructural de los diccionarios en línea para crear una lista de palabras mal escritas y sus correspondientes correcciones. Dicho método está bajo investigación y es utilizado en Wikipedia como un corpus.
|
author |
Dorado, Rubén |
author_facet |
Dorado, Rubén |
topicspa_str_mv |
Wikipedia -- Spelling mistakes |
topic |
Wikipedia -- Spelling mistakes Wikipedia -- Errores de ortografía Wikipedia - erros de ortografia. |
topic_facet |
Wikipedia -- Spelling mistakes Wikipedia -- Errores de ortografía Wikipedia - erros de ortografia. |
citationvolume |
2 |
citationissue |
2 |
citationedition |
Núm. 2 , Año 2014 : Ingeniería para un desarrollo sostenible |
publisher |
Universidad Ean |
ispartofjournal |
Revista Ontare |
source |
https://journal.universidadean.edu.co/index.php/Revistao/article/view/1246 |
language |
Español |
format |
Article |
rights |
http://purl.org/coar/access_right/c_abf2 info:eu-repo/semantics/openAccess Revista Ontare - 2016 https://creativecommons.org/licenses/by-nc-sa/4.0/ |
type_driver |
info:eu-repo/semantics/article |
type_coar |
http://purl.org/coar/resource_type/c_6501 |
type_version |
info:eu-repo/semantics/publishedVersion |
type_coarversion |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
type_content |
Text |
publishDate |
2015-10-30 |
date_accessioned |
2015-10-30T00:00:00Z |
date_available |
2015-10-30T00:00:00Z |
url |
https://journal.universidadean.edu.co/index.php/Revistao/article/view/1246 |
url_doi |
https://doi.org/10.21158/23823399.v2.n2.2014.1246 |
issn |
2382-3399 |
eissn |
2745-2220 |
doi |
10.21158/23823399.v2.n2.2014.1246 |
citationstartpage |
171 |
citationendpage |
180 |
url2_str_mv |
https://journal.universidadean.edu.co/index.php/Revistao/article/download/1246/1211 |
_version_ |
1797159030627500032 |