如何解决以下错误？输入必须是任意长度的字符向量或字符向量列表，其中每个长度都为1.

问题描述：

我正在开发一个R项目。我使用的数据集在以下链接处可用 https://www.kaggle.com/ranjitha1/hotel-reviews-city-chennai/data 如何解决以下错误？输入必须是任意长度的字符向量或字符向量列表，其中每个长度都为1.

我已经使用的代码是。

df1 = read.csv("chennai.csv", header = TRUE) 
library(tidytext) 
tidy_books <- df1 %>% unnest_tokens(word,Review_Text)

这里Review_Text是文本列。但是，我收到以下错误。

Error in check_input(x) : 
Input must be a character vector of any length or a list of character 
vectors, each of which has a length of 1.

你需要'stringsAsFactors = FALSE'在'read.csv'声明。或者使用'read_csv'，因为你似乎在进行全面的工作。 –

我正要说的是，但以更紧凑的方式。考虑在你使用之前检查新数据的结构，即'str（df1）'，这也会提醒你这个问题以及 – Visser

答

stringsAsFactors再次袭击！

您的Review_Text列是一个因素，而不是字符向量，因为错误消息表示函数需要。

我强烈建议使用readr::read_csv而不是默认的read.csv，因为它更快，并且其默认值不会导致此问题。否则，只设置stringsAsFactors到FALSE，你是好：

> tidytext::unnest_tokens(readr::read_csv("chennai_reviews.csv"), word, Review_Text) 
Parsed with column specification: 
cols(
    Hotel_name = col_character(), 
    Review_Title = col_character(), 
    Review_Text = col_character(), 
    Sentiment = col_character(), 
    Rating_Percentage = col_character(), 
    X6 = col_integer(), 
    X7 = col_integer(), 
    X8 = col_character(), 
    X9 = col_character() 
) 
Warning: 1 parsing failure. 
row # A tibble: 1 x 5 col  row col expected                          actual expected <int> <chr>  <chr>                          <chr> actual 1 2262 X7 an integer "Expedia Booking availability was , only for Non- AC ; ON REQUEST OVER PHONE got it.\n\nRecommended" file # ... with 1 more variables: file <chr> 

# A tibble: 179,883 x 9 
      Hotel_name       Review_Title Sentiment Rating_Percentage X6 X7 X8 X9  word 
       <chr>         <chr>  <chr>    <chr> <int> <int> <chr> <chr>  <chr> 
1 Accord Metropolitan Excellent comfortableness during stay   3    100 NA NA <NA> <NA>  its 
2 Accord Metropolitan Excellent comfortableness during stay   3    100 NA NA <NA> <NA>  really 
3 Accord Metropolitan Excellent comfortableness during stay   3    100 NA NA <NA> <NA>  nice 
4 Accord Metropolitan Excellent comfortableness during stay   3    100 NA NA <NA> <NA>  place 
5 Accord Metropolitan Excellent comfortableness during stay   3    100 NA NA <NA> <NA>   to 
6 Accord Metropolitan Excellent comfortableness during stay   3    100 NA NA <NA> <NA>  stay 
7 Accord Metropolitan Excellent comfortableness during stay   3    100 NA NA <NA> <NA> especially 
8 Accord Metropolitan Excellent comfortableness during stay   3    100 NA NA <NA> <NA>  for 
9 Accord Metropolitan Excellent comfortableness during stay   3    100 NA NA <NA> <NA> business 
10 Accord Metropolitan Excellent comfortableness during stay   3    100 NA NA <NA> <NA>  and 
# ... with 179,873 more rows 
Warning message: 
Missing column names filled in: 'X6' [6], 'X7' [7], 'X8' [8], 'X9' [9]

或

> tidytext::unnest_tokens(read.csv("chennai_reviews.csv", stringsAsFactors = FALSE), word, Review_Text) 
               Hotel_name 
1          Accord Metropolitan 
                                                                 Review_Title 
...snip...

谢谢！有效 –

如何解决以下错误？输入必须是任意长度的字符向量或字符向量列表，其中每个长度都为1.

相关推荐